我刚安装了与solr集成的nutch并开始爬行。但是我在seed.txt nutch中指定的url并没有立即抓取这些url。它注入了我之前给出的旧网址,但现在它们被注释掉了。看起来nutch正在以某种奇怪的顺序注入网址。是什么原因。也可以任何人指导我任何书籍或关于荷兰语的详细教程,因为大多数教程都只是安装。
答案 0 :(得分:0)
正如an answer中针对类似问题所述,旧网址仍在Nutch的crawldb
中。
您可以完全像this user did那样核对以前的游戏并重新开始,或者您可以通过CrawlDbMerger以不同的方式删除不需要的网址:
CLI通过bin/nutch mergedb
CLI通过bin/nutch updatedb