Question

我需要一个开源搜寻器，其功能包括url normalizer，url filter，parser，politeness，不包括一些网址，但我正在做的事情并不大。它只有大约500个主机，它们的1级外链我需要保持最新。我不喜欢通过实现Nutch所具有的所有这些优点来重新发明轮子，同时我不喜欢Hadoop用于这项小任务的开销。

Nutch没有Hadoop的叉子吗？或具有这些功能的任何其他简单爬虫？我不需要任何自适应获取调度，排名等。我只有一个主机列表，我应该使用一台机器获取他们的外链。

我的偏好是Nutch的一些分叉，因为我有使用它的经验。

Answer 1

我认为你只需要linux命令wget。例如，假设主机放在文件hosts.txt中。您可以使用以下命令下载它们：

for host in `cat hosts.txt` ; do wget -r -d 1 -H "$host"; done

-r表示递归，-d 1表示只下载1级，-H表示不限制域名。

您可以在Google中搜索wget recursive download，或运行man wget以获取更多信息。

Answer 2

Nutch不再受Hadoop约束：

默认情况下，Nutch不再提供Hadoop发行版当以本地模式运行时，例如在一个进程中运行Nutch 机器，然后我们使用Hadoop作为依赖。这可能适合你你有一个小网站来抓取和索引，但大多数人选择Nutch 因为它能够在Hadoop内以部署模式运行群集。

来自：http://wiki.apache.org/nutch/NutchHadoopTutorial

需要像Apache Nutch这样没有Hadoop的开源爬虫

2 个答案: