需要像Apache Nutch这样没有Hadoop的开源爬虫

时间:2014-04-03 15:48:50

标签: hadoop web-crawler nutch

我需要一个开源搜寻器,其功能包括url normalizer,url filter,parser,politeness,不包括一些网址,但我正在做的事情并不大。它只有大约500个主机,它们的1级外链我需要保持最新。我不喜欢通过实现Nutch所具有的所有这些优点来重新发明轮子,同时我不喜欢Hadoop用于这项小任务的开销。

Nutch没有Hadoop的叉子吗?或具有这些功能的任何其他简单爬虫? 我不需要任何自适应获取调度,排名等。我只有一个主机列表,我应该使用一台机器获取他们的外链。

我的偏好是Nutch的一些分叉,因为我有使用它的经验。

2 个答案:

答案 0 :(得分:1)

我认为你只需要linux命令wget。 例如,假设主机放在文件hosts.txt中。您可以使用以下命令下载它们:

for host in `cat hosts.txt` ; do wget -r -d 1 -H "$host"; done

-r表示递归,-d 1表示只下载1级,-H表示不限制域名。

您可以在Google中搜索wget recursive download,或运行man wget以获取更多信息。

答案 1 :(得分:0)

Nutch不再受Hadoop约束:

  

默认情况下,Nutch不再提供Hadoop发行版   当以本地模式运行时,例如在一个进程中运行Nutch   机器,然后我们使用Hadoop作为依赖。这可能适合你   你有一个小网站来抓取和索引,但大多数人选择Nutch   因为它能够在Hadoop内以部署模式运行   群集。

来自:http://wiki.apache.org/nutch/NutchHadoopTutorial