在螺母中使用solrindexing作业查找solr中已经存在的文档数

时间:2018-11-07 11:11:52

标签: solr nutch2

在螺母中,在solrindex作业中,我们如何计算在solr中已更新的文档数和已被索引为新文档的文档数。

1 个答案:

答案 0 :(得分:0)

您可以使用它来查看统计信息和状态(已获取,未修改,已消失...)

bin/nutch readdb crawl/crawldb/ -stats

否则,您可以转储crabdb以查看已被爬网的所有URL及其状态

bin/nutch readdb crawl/crawldb/ -dump whole_db
vi whole_db/part-r-00000