标签: solr nutch2
在螺母中,在solrindex作业中,我们如何计算在solr中已更新的文档数和已被索引为新文档的文档数。
答案 0 :(得分:0)
您可以使用它来查看统计信息和状态(已获取,未修改,已消失...)
bin/nutch readdb crawl/crawldb/ -stats
否则,您可以转储crabdb以查看已被爬网的所有URL及其状态
bin/nutch readdb crawl/crawldb/ -dump whole_db vi whole_db/part-r-00000