我对阿奇尼奇很新。我的目标是从种子URL列表开始,并使用Nutch在大小限制内(例如,不超过1百万或小于1 TB的数据)提取尽可能多的URL(和子URL)。我不需要页面的内容,我只需要保存URL。有没有办法做到这一点? Nutch是正确的工具吗?
答案 0 :(得分:1)
是的,你可以使用Nutch来达到这个目的,基本上Nutch可以做你想要的所有事情。
您需要以任一方式解析获取的HTML(为了发现新链接,当然重复此过程)。一种方法是使用linkdb
命令将Nutch保存的LinkDB转储到文件中。我们可以使用Nutch 1.x可用的indexer-links
插件将您的inlinks / outlinks索引到Solr / ES。
在Nutch中,您可以控制每轮要处理的网址数,但这与获取的数据量几乎无关。因此,您需要决定何时停止。