最适合商业用途的网络爬虫?

时间:2012-06-21 10:55:07

标签: web-crawler nutch

我正在开发一个可以抓取数以千万计的网页的系统,这些网页将继续运行。 我宁愿不从头开发一个爬虫。

哪些开源网络抓取工具符合以下条件:

  • 可以自定义
  • 高度可扩展
  • 轻松抓取ajax网站
  • 智能抓取
  • 服从礼貌

如果我遗漏了任何内容,请评估您认为重要的其他标准。

我有以下开源搜寻器的列表。他们是否具备上述功能?

  1. Scrapy
  2. 机械化
  3. Nutch的
  4. Heritrix的
  5. 亚麻
  6. 的HTTrack
  7. Spidher
  8. Searcharoo

1 个答案:

答案 0 :(得分:0)

我已经和nutch一起工作了一段时间,看起来它很适合这个标准。插件系统允许您抓取新材料并轻松部署。我遇到的一件事就是让它使用多个代理,但总的来说它是非常可定制的。