所以我用nutch V2来索引我的网站。 但是,不会从SOLR索引中删除不再存在的页面(我正在索引CMS,因此可以删除页面)。
我尝试在db.update.purge.404=true
中设置nutch-default.xml
,但似乎没有做任何事情。
对于nutch V1,我可以看到命令行参数“ - deleteGone”存在,但是从文档中我只能猜到它已经在V2中删除了。
所以我的问题是:我如何配置nutch V2来删除不存在的网址?
答案 0 :(得分:2)
您必须在db.update.purge.404=true
中设置nutch-site.xml
,而不是nutch-default.xml