应用错误收集

最适合商业用途的网络爬虫？

时间：2012-06-21 10:55:07

标签： web-crawler nutch

我正在开发一个可以抓取数以千万计的网页的系统，这些网页将继续运行。我宁愿不从头开发一个爬虫。

哪些开源网络抓取工具符合以下条件：

可以自定义
高度可扩展
轻松抓取ajax网站
智能抓取
服从礼貌

如果我遗漏了任何内容，请评估您认为重要的其他标准。

我有以下开源搜寻器的列表。他们是否具备上述功能？

Scrapy
机械化
Nutch的
Heritrix的
亚麻
的HTTrack
Spidher
Searcharoo

1 个答案:

答案 0 :(得分：0)

我已经和nutch一起工作了一段时间，看起来它很适合这个标准。插件系统允许您抓取新材料并轻松部署。我遇到的一件事就是让它使用多个代理，但总的来说它是非常可定制的。