有没有办法迫使蜘蛛放慢网站的速度?可以放在标题或robots.txt中的任何内容吗?
我以为我记得读过一些关于这是可能的事情,但现在找不到任何东西。
答案 0 :(得分:16)
如果您指的是Google,则可以使用Google网站管理员帐户(Google Webmaster Tools)限制Google抓取您网站的速度。
还有这个,你可以放在robots.txt
User-agent: *
Crawl-delay: 10
将爬网延迟指定为每次抓取页面之间的秒数。当然,就像robots.txt中的其他内容一样,抓取工具必须尊重它,所以YMMV。
答案 1 :(得分:5)
除了使用Googlebot的Google网站管理员工具(请参阅 Robert Harvey 的回答)之外,Yahoo!和Bing支持http://en.wikipedia.org/wiki/Robots.txt#Nonstandard_extensions中的非标准Crawl-delay
指令{1}}:
{{3}}
然而,当推动推动时,砰击你的网站的行为不当的僵尸程序将不得不被阻止在更高的级别(例如负载平衡器,路由器,缓存代理,适合您的架构的任何东西)。
答案 2 :(得分:2)
有关使用Perl的解决方案,请参阅Throttling your web server。兰德尔施瓦茨说,他使用这种解决方案幸免于Slashdot攻击。
答案 3 :(得分:0)