如何礼貌地抓取单个网站?

时间:2016-03-20 07:48:59

标签: web-crawler robots.txt

我最近对网络抓取感兴趣并且了解robots.txt指南,但我对所考虑的具体内容感兴趣"礼貌"就每秒处理的页面数量而言,以及在任何给定时间应该设置的线程数量。任何一般指导都非常感谢,因为我不想让自己不礼貌,具有破坏性,或有被网站封锁的风险。

此外,我意识到不同的网站会因为我的抓取而遇到不同程度的压力,因此欢迎任何关于我如何正确评估并解释它的建议。

0 个答案:

没有答案