Question

如何获取状态为3（db_gone）的所有网址的Nutch crawldb的转储。 Nutch的版本我使用1.4。

我查看了维基，但目前还不清楚如何做到这一点

Answer 1

Nutch 1.4中的CrawlDbReader不会根据Document的状态生成crawldb转储。在1.5及更高版本的Nutch中，您可以在crawldb读取期间指定文档的状态，readdb将生成具有指定状态的文档转储。

[root@srchengn nutch]# bin/nutch readdb <path_crawldb> -dump <output_directory> -status db_gone

如果你想在Nutch 1.4中做同样的事情，你必须修改org.apache.nutch.crawl.CrawlDbReader类。