我们在AWS EC2实例上设置了网络输入/输出警报。虽然实例运行正常(响应时间较慢 - CPU徘徊在85%左右),但我注意到我们的网络输入/输出低于2.0E7字节。
当我们升级并改变现状并将CPU降低到30%左右时,我们现在似乎更频繁地被抓取。
每当我们修改了我们的实例类型时,我注意到了一些重要的短期峰值。我怀疑爬虫会做这样的事情,检测响应时间,从而规定他们的爬行频率。
我确实知道我可以在robots.txt中设置抓取速度 - 但我没有设置任何限制。
当然可能还有其他因素,但我想知道这是否合理?
答案 0 :(得分:2)
Google的文档没有明确说明他们会检查您的响应时间,但我使用Googlebot和其他抓取工具的经验表明它确实会使您网站的响应时间生效。我知道我的爬虫了。我的抓取率基于我抓取的网站的响应时间。
见