Apache Nutch:获取网址列表,而不是整个网络的内容

时间:2017-11-28 21:05:56

标签: nutch

我对阿奇尼奇很新。我的目标是从种子URL列表开始,并使用Nutch在大小限制内(例如,不超过1百万或小于1 TB的数据)提取尽可能多的URL(和子URL)。我不需要页面的内容,我只需要保存URL。有没有办法做到这一点? Nutch是正确的工具吗?

1 个答案:

答案 0 :(得分:1)

是的,你可以使用Nutch来达到这个目的,基本上Nutch可以做你想要的所有事情。

您需要以任一方式解析获取的HTML(为了发现新链接,当然重复此过程)。一种方法是使用linkdb命令将Nutch保存的LinkDB转储到文件中。我们可以使用Nutch 1.x可用的indexer-links插件将您的inlinks / outlinks索引到Solr / ES。

在Nutch中,您可以控制每轮要处理的网址数,但这与获取的数据量几乎无关。因此,您需要决定何时停止。