nutch V2(带solr)删除文件

时间:2017-03-22 13:38:17

标签: solr nutch

所以我用nutch V2来索引我的网站。 但是,不会从SOLR索引中删除不再存在的页面(我正在索引CMS,因此可以删除页面)。

我尝试在db.update.purge.404=true中设置nutch-default.xml,但似乎没有做任何事情。

对于nutch V1,我可以看到命令行参数“ - deleteGone”存在,但是从文档中我只能猜到它已经在V2中删除了。

所以我的问题是:我如何配置nutch V2来删除不存在的网址?

1 个答案:

答案 0 :(得分:2)

您必须在db.update.purge.404=true中设置nutch-site.xml,而不是nutch-default.xml