应用错误收集

我实际抓取网站的速度有多快？

时间：2010-12-09 05:58:14

标签： web-crawler

我要抓取一个网站获取一些信息。这是大约17万多页。那么，我可以提出多少请求？我将提取直到HTML并获取一些信息。这是一个已经非常受欢迎的网站，所以我不认为如果只是在所有页面上快速巡航就会死亡......只有让我感到紧张的是我不知道自己的用户是否会阻止我的IP或其他东西如果你这样做？这是正常的吗？我应该加载5页/分钟吗？然后它将需要永远......我希望每24小时获得一次新数据。

感谢所有回复！

4 个答案:

答案 0 :(得分：5)

这需要一段时间，实际上我建议您使用旋转代理，并添加多线程。 10个线程会做。这样，您可以同时拥有10个请求。使用代理会很慢，并且每个请求添加至少1.5秒的超时，它会降低你的速度，但会降低被禁止的风险。

答案 1 :(得分：2)

几年前我创建了一个webcrawler，它每晚从BBC的网站上抓取大约7GB（受带宽限制）并且从未被阻止，但在请求之间增加1秒的延迟是件好事。

答案 2 :(得分：1)

每次请求后的第二次或第二次延迟就足够了。尽可能快地让你的机器人爬行可能会让你被禁止。在我的日常工作中，我管理几个报纸的网站，我偶尔会看到本土的爬虫。坏的确会导致相当多的系统代码，并导致IP黑名单的新增功能。不要那个人。

答案 3 :(得分：1)

只要你遵守他们的robots.txt说明，你应该没问题。我在请求之间看到的标准延迟是2秒 - 这通常是您可能开始限制流量或阻止ip的限制。