应用错误收集

Apache Nutch：获取网址列表，而不是整个网络的内容

时间：2017-11-28 21:05:56

标签： nutch

我对阿奇尼奇很新。我的目标是从种子URL列表开始，并使用Nutch在大小限制内（例如，不超过1百万或小于1 TB的数据）提取尽可能多的URL（和子URL）。我不需要页面的内容，我只需要保存URL。有没有办法做到这一点？ Nutch是正确的工具吗？

1 个答案:

答案 0 :(得分：1)

是的，你可以使用Nutch来达到这个目的，基本上Nutch可以做你想要的所有事情。

您需要以任一方式解析获取的HTML（为了发现新链接，当然重复此过程）。一种方法是使用linkdb命令将Nutch保存的LinkDB转储到文件中。我们可以使用Nutch 1.x可用的indexer-links插件将您的inlinks / outlinks索引到Solr / ES。

在Nutch中，您可以控制每轮要处理的网址数，但这与获取的数据量几乎无关。因此，您需要决定何时停止。