哪个开源爬虫最好?

时间:2011-12-07 13:28:10

标签: web-crawler nutch

我正在比较这四个Nutch / Heritrix / OpenPipeLine / Apache Tika 哪一个最好?每个的优点和缺点是什么? 我想有一些可扩展的爬虫,可以抓取一个网站列表,并可以根据需要进行修改。

2 个答案:

答案 0 :(得分:3)

Nutch 是最全面的,非常易于配置。试过100米的文件。值得信赖的。

Heritrix 也可以,但不会比 Nutch 更好。

如果您需要快速抓取,可以尝试 Crawler4j

要使用简单的用户界面轻松进行介绍性抓取并使用和配置抓取工具,您可以尝试 websphinx

Tika 不是抓取工具:it's a toolkit detects and extracts metadata and structured text content

我的工作需要抓取,但 OpenPipeLine 不在收藏抓取工具列表中。它有一个UI,作业调度程序;它用于企业解决方案。由于您只想抓取某些网站,因此您不需要这样的内容。

答案 1 :(得分:1)

我还没有研究过你提到的爬虫,但我知道我写的那个是可扩展的,可以修改。它也可以与AJAX和“仅限javascript”的网站(即使用Google Web Toolkit的网站)一起使用。

名称为forklabs-javaxpcom,可在http://code.google.com/p/forklabs-javaxpcom/找到。