我有一台运行Nutch的服务器,它向Solr供电。 Nutch的输入是rss feed的xml,它似乎使用正确的feed插件来解析它。
运行基本爬网时,它会正确爬网并识别xml中的各个链接,并索引正确数量的文档。但是,SolrDeleteDuplicates似乎删除了除一个之外的所有内容 - 没有被删除的内容似乎是随机的。
Indexing 21 documents
SolrIndexer: finished at 2013-11-15 13:53:53, elapsed: 00:00:22
SolrDeleteDuplicates: starting at 2013-11-15 13:35:53
SolrDeleteDuplicates: Solr url: http://localhost:8983/solr
SolrDeleteDuplicates: deleting 20 duplicates
有什么想法吗?
答案 0 :(得分:0)
您很可能错误地配置了重复数据删除设置,以查看所有条目相同的字段。所以,索尔认为他们都是相同的记录。
如果没有,请使用重复数据删除组件的配置更新您的问题。