Solrcloud使用id字段复制文档

时间:2013-07-10 09:57:48

标签: solr solrcloud

我在windows机器上使用solrcloud-4.3.0和zookeeper-3.4.5。我有一个带有唯一字段“id”的索引集合。我发现索引中有重复的文档具有相同的唯一ID值。根据我的理解,这不应该发生,因为唯一领域的目的是避免这种情况。可以有人帮我解决这个问题吗?

2 个答案:

答案 0 :(得分:0)

在“/conf/schema.xml”文件中有一个名为“”的XML元素,默认情况下似乎是“id”......应该是你的“密钥”。

但是,根据Solr文档(http://wiki.apache.org/solr/UniqueKey#Use_cases_which_do_not_require_a_unique_key),如果您不需要逐步向现有索引添加新文档,则并不总是需要始终拥有“唯一键”...也许这就是你的情况。但我也觉得你总是需要一个独特的ID。

答案 1 :(得分:0)

添加此问题的答案可能为时已晚,但也可以通过将索引与重复的文档/字段合并来复制具有唯一键/字段的文档。

显然,当通过lucene IndexMergeTool或solr CoreAdminHandler合并索引时,任何重复的文档都将很乐意附加到索引中。 (截至lucene和solr 4.6.0)

重复数据删除似乎发生在检索时。

https://cwiki.apache.org/confluence/display/solr/Merging+Indexes