运行蜘蛛(webcrawler)以查找特定内容

时间:2010-12-05 15:43:09

标签: web-crawler

首先,我不知道这是否适合这个问题。如果不是我很抱歉:)

我正在考虑编写一个蜘蛛来抓取网页查找特定的嵌入文件。

但是我想知道ISP是否允许它运行蜘蛛,因为它会以很快的速度提出大量请求。

或者我应该在请求中建立一些延迟吗?

我已经阅读了我的ISP合同,但我找不到任何有关抓取的具体信息。

2 个答案:

答案 0 :(得分:2)

您可以查看wget。它有一些有用的想法。您应该记下要抓取的网站上的ROBOTS.txt。并且您应该在请求之间留下延迟,以免创建拒绝服务条件。

答案 1 :(得分:1)

没有什么可以禁止你爬行。它与普通用户交互没有区别。如果您打开包含大量图片的页面,浏览器会立即提出大量请求。

您可以拥有转移限制 - 只需记下已下载的数据量。

您必须考虑的事情是,抓取大量页面可被视为DoS攻击或被页面操作员禁止。遵循他们的规则。如果他们要求每天从一台计算机完成不超过N个请求,请尊重它。做一些延迟不阻止访问网站。