标签: solr nutch
我能够抓取一个网站(使用带有tika插件的nutch),其中包含一些pdf和docx文件,并将创建的文档编入索引。但是在抓取之后,网站上的数据发生了变化(添加了一些新文件,删除了一些旧文件)。因此,通过重新抓取更改将索引到solr。在查询solr时,我还获得了从网站上删除的文件的链接(显然)。那么如何进行配置/设置,以便在索引到solr(来自nutch)时,所有文档(包含从网站上删除的文件的信息)也会被删除?