GoogleBot和MSNBot的抓取频率是否会随着响应时间的延长而增加?

时间:2013-10-26 00:44:19

标签: robots.txt google-crawlers

我们在AWS EC2实例上设置了网络输入/输出警报。虽然实例运行正常(响应时间较慢 - CPU徘徊在85%左右),但我注意到我们的网络输入/输出低于2.0E7字节。

当我们升级并改变现状并将CPU降低到30%左右时,我们现在似乎更频繁地被抓取。

每当我们修改了我们的实例类型时,我注意到了一些重要的短期峰值。我怀疑爬虫会做这样的事情,检测响应时间,从而规定他们的爬行频率。

我确实知道我可以在robots.txt中设置抓取速度 - 但我没有设置任何限制。

当然可能还有其他因素,但我想知道这是否合理?

1 个答案:

答案 0 :(得分:2)

Google的文档没有明确说明他们会检查您的响应时间,但我使用Googlebot和其他抓取工具的经验表明它确实会使您网站的响应时间生效。我知道我的爬虫了。我的抓取率基于我抓取的网站的响应时间。