Question

根据我对Nutch的理解，当Nutch正在进行重新抓取并尝试获取不再存在的文档时，它会生成404并将该文档的状态设置为DB_GONE。当我使用Nutch重新抓取时，它会生成404错误，但是当我执行以下操作时：

readdb folder/crawldb - stats

它将文件显示为db_unfetched而不是db_gone。这导致了大问题，因为我无法使我的Solr索引保持最新

如果您想查看我的Solr或Nutch设置，请按照我的博客指南进行操作，它应该完全相同：http://amac4.blogspot.co.uk

Answer 1

检查nutch配置文件中的 db.fetch.retry.max 属性。默认情况下，它设置为3.只有在最大重试次数后，nutch才会将文档标记为 db_gone 。即默认情况下，在第3次重试后，nutch将标记文档 db_gone ，然后该状态将保持 db_unfetched 。

Nutch没有将文档移动到状态DB_GONE

1 个答案: