给出Nutch Vs Heritrix的比较

时间:2010-07-16 07:30:47

标签: java web-crawler nutch

我想选择以上其中一项来构建特定网站的抓取框架。这不是互联网范围内的爬行。我没有构建搜索索引,而是有兴趣从网站上抓取特定页面。

有人可以详细说明上述的优点和缺点吗? 谢谢 Nayn

1 个答案:

答案 0 :(得分:-1)

您的主要任务是从网站上抓取特定页面。

Nutch :基于Lucene Java构建的开源网络搜索软件

Heritrix :是Internet Archive的开源,可扩展,网络规模,档案质量的网络抓取工具

所以我觉得Heritrix比你的项目要好得多。

学习框架/图书馆是一项有价值的工作。但这需要一些时间。既然你的任务不是很复杂,那么在Java中从头开始编写一个简单的爬虫就不那么痛苦了