Nutch没有抓取seed.txt中指定的url

时间:2015-03-24 16:50:49

标签: solr lucene nutch

我刚安装了与solr集成的nutch并开始爬行。但是我在seed.txt nutch中指定的url并没有立即抓取这些url。它注入了我之前给出的旧网址,但现在它们被注释掉了。看起来nutch正在以某种奇怪的顺序注入网址。是什么原因。也可以任何人指导我任何书籍或关于荷兰语的详细教程,因为大多数教程都只是安装。

1 个答案:

答案 0 :(得分:0)

正如an answer中针对类似问题所述,旧网址仍在Nutch的crawldb中。

您可以完全像this user did那样核对以前的游戏并重新开始,或者您可以通过CrawlDbMerger以不同的方式删除不需要的网址: