应用错误收集

时间：2010-12-05 15:43:09

标签： web-crawler

首先，我不知道这是否适合这个问题。如果不是我很抱歉:)

我正在考虑编写一个蜘蛛来抓取网页查找特定的嵌入文件。

但是我想知道ISP是否允许它运行蜘蛛，因为它会以很快的速度提出大量请求。

或者我应该在请求中建立一些延迟吗？

我已经阅读了我的ISP合同，但我找不到任何有关抓取的具体信息。

答案 0 :(得分：2)

您可以查看wget。它有一些有用的想法。您应该记下要抓取的网站上的ROBOTS.txt。并且您应该在请求之间留下延迟，以免创建拒绝服务条件。

答案 1 :(得分：1)

没有什么可以禁止你爬行。它与普通用户交互没有区别。如果您打开包含大量图片的页面，浏览器会立即提出大量请求。

您可以拥有转移限制 - 只需记下已下载的数据量。

您必须考虑的事情是，抓取大量页面可被视为DoS攻击或被页面操作员禁止。遵循他们的规则。如果他们要求每天从一台计算机完成不超过N个请求，请尊重它。做一些延迟不阻止访问网站。