使用Robots.txt来控制网络爬虫访问你的网站的频率
最近我们新站经常服务器过忙带宽被占,经过我们分析造成我们服务器过忙的原因可能不是别人故意攻击,而是一些搜索引擎蜘蛛来爬引起的。 我们可以使用使用Robots.txt来限制一些爬虫的访问,控制网络爬虫访问网站的频率,还可以增加访问过滤,告诉网络爬虫爬行的速度不要太快,还好这个问题比较好解决,在robots.txt中增加:- Robot-version: 2.0
- Crawl-delay: 10
- Request-rate: 60/1m
- Visit-time: 0000-0800
复制代码 由于这个还没有完全的标准,两种都用了,Crawl-delay是每秒访问的网页数,而Request-rate是页面数/时间段,可以设置为比较小的 值,Visit-time为允许访问的时间段。完整的规范可以看看:http://www.conman.org/people/spc ... ctives.request-rate |