负责任的时间延迟 - 网络爬行

时间:2017-08-22 00:52:41

标签: python web-crawler delay responsibility

在只抓取一个根网页的网页抓取工具中放置一个负责任/合乎道德的时间延迟是什么?

我在以下来电之间使用time.sleep(#)     requests.get(URL)

我正在寻找关于时间尺度的粗略想法: 1.方式过于保守 2.标准 3.会引起问题/让你注意到

我想要触及满足特定条件的每一页(至少20,000,可能更多)。这在合理的时间范围内是否可行?

编辑
这个问题不是关于避免被阻止(尽管任何相关信息都会受到赞赏),而是什么时间延迟不会给主机网站/服务器带来问题。 我已经测试了10秒的时间延迟和大约50页。如果我过于谨慎,我只是不知道。

1 个答案:

答案 0 :(得分:0)

我检查他们的robots.txt。如果它列出了爬行延迟,请使用它!如果没有,请尝试合理的事情(这取决于页面的大小)。如果它是一个大页面,请尝试2 /秒。如果它是一个简单的.txt文件,10 /秒应该没问题。

如果所有其他方法都失败了,请与网站所有者联系,了解他们能够很好地处理的内容。

(我假设这是一个带宽最小的业余服务器)