如何获取状态为3(db_gone)的所有网址的Nutch crawldb的转储。 Nutch的版本我使用1.4。
我查看了维基,但目前还不清楚如何做到这一点
答案 0 :(得分:1)
Nutch 1.4中的CrawlDbReader不会根据Document的状态生成crawldb转储。在1.5及更高版本的Nutch中,您可以在crawldb读取期间指定文档的状态,readdb将生成具有指定状态的文档转储。
[root@srchengn nutch]# bin/nutch readdb <path_crawldb> -dump <output_directory> -status db_gone
如果你想在Nutch 1.4中做同样的事情,你必须修改org.apache.nutch.crawl.CrawlDbReader
类。