我需要一个开源搜寻器,其功能包括url normalizer,url filter,parser,politeness,不包括一些网址,但我正在做的事情并不大。它只有大约500个主机,它们的1级外链我需要保持最新。我不喜欢通过实现Nutch所具有的所有这些优点来重新发明轮子,同时我不喜欢Hadoop用于这项小任务的开销。
Nutch没有Hadoop的叉子吗?或具有这些功能的任何其他简单爬虫? 我不需要任何自适应获取调度,排名等。我只有一个主机列表,我应该使用一台机器获取他们的外链。
我的偏好是Nutch的一些分叉,因为我有使用它的经验。
答案 0 :(得分:1)
我认为你只需要linux命令wget
。
例如,假设主机放在文件hosts.txt
中。您可以使用以下命令下载它们:
for host in `cat hosts.txt` ; do wget -r -d 1 -H "$host"; done
-r表示递归,-d 1表示只下载1级,-H表示不限制域名。
您可以在Google中搜索wget recursive download
,或运行man wget
以获取更多信息。
答案 1 :(得分:0)
Nutch不再受Hadoop约束:
默认情况下,Nutch不再提供Hadoop发行版 当以本地模式运行时,例如在一个进程中运行Nutch 机器,然后我们使用Hadoop作为依赖。这可能适合你 你有一个小网站来抓取和索引,但大多数人选择Nutch 因为它能够在Hadoop内以部署模式运行 群集。