倾倒Nutch Crawldb

时间:2013-08-26 14:02:42

标签: solr nutch

如何获取状态为3(db_gone)的所有网址的Nutch crawldb的转储。 Nutch的版本我使用1.4。

我查看了维基,但目前还不清楚如何做到这一点

1 个答案:

答案 0 :(得分:1)

Nutch 1.4中的CrawlDbReader不会根据Document的状态生成crawldb转储。在1.5及更高版本的Nutch中,您可以在crawldb读取期间指定文档的状态,readdb将生成具有指定状态的文档转储。

[root@srchengn nutch]# bin/nutch readdb <path_crawldb> -dump <output_directory> -status db_gone

如果你想在Nutch 1.4中做同样的事情,你必须修改org.apache.nutch.crawl.CrawlDbReader类。