Nutch + Solr; SolrDeleteDuplicates删除除一个索引之外的所有索引

时间:2013-11-15 21:45:29

标签: solr rss indexing duplicates nutch

我有一台运行Nutch的服务器,它向Solr供电。 Nutch的输入是rss feed的xml,它似乎使用正确的feed插件来解析它。

运行基本爬网时,它会正确爬网并识别xml中的各个链接,并索引正确数量的文档。但是,SolrDeleteDuplicates似乎删除了除一个之外的所有内容 - 没有被删除的内容似乎是随​​机的。

 Indexing 21 documents
 SolrIndexer: finished at 2013-11-15 13:53:53, elapsed: 00:00:22
 SolrDeleteDuplicates: starting at 2013-11-15 13:35:53
 SolrDeleteDuplicates: Solr url: http://localhost:8983/solr
 SolrDeleteDuplicates: deleting 20 duplicates

有什么想法吗?

1 个答案:

答案 0 :(得分:0)

您很可能错误地配置了重复数据删除设置,以查看所有条目相同的字段。所以,索尔认为他们都是相同的记录。

如果没有,请使用重复数据删除组件的配置更新您的问题。