根据我对Nutch的理解,当Nutch正在进行重新抓取并尝试获取不再存在的文档时,它会生成404并将该文档的状态设置为DB_GONE。当我使用Nutch重新抓取时,它会生成404错误,但是当我执行以下操作时:
readdb folder/crawldb - stats
它将文件显示为db_unfetched而不是db_gone。这导致了大问题,因为我无法使我的Solr索引保持最新
如果您想查看我的Solr或Nutch设置,请按照我的博客指南进行操作,它应该完全相同:http://amac4.blogspot.co.uk
答案 0 :(得分:1)
检查nutch配置文件中的 db.fetch.retry.max 属性。默认情况下,它设置为3.只有在最大重试次数后,nutch才会将文档标记为 db_gone 。 即默认情况下,在第3次重试后,nutch将标记文档 db_gone ,然后该状态将保持 db_unfetched 。