我在windows机器上使用solrcloud-4.3.0和zookeeper-3.4.5。我有一个带有唯一字段“id”的索引集合。我发现索引中有重复的文档具有相同的唯一ID值。根据我的理解,这不应该发生,因为唯一领域的目的是避免这种情况。可以有人帮我解决这个问题吗?
答案 0 :(得分:0)
在“/conf/schema.xml”文件中有一个名为“”的XML元素,默认情况下似乎是“id”......应该是你的“密钥”。
但是,根据Solr文档(http://wiki.apache.org/solr/UniqueKey#Use_cases_which_do_not_require_a_unique_key),如果您不需要逐步向现有索引添加新文档,则并不总是需要始终拥有“唯一键”...也许这就是你的情况。但我也觉得你总是需要一个独特的ID。
答案 1 :(得分:0)
添加此问题的答案可能为时已晚,但也可以通过将索引与重复的文档/字段合并来复制具有唯一键/字段的文档。
显然,当通过lucene IndexMergeTool或solr CoreAdminHandler合并索引时,任何重复的文档都将很乐意附加到索引中。 (截至lucene和solr 4.6.0)
重复数据删除似乎发生在检索时。
https://cwiki.apache.org/confluence/display/solr/Merging+Indexes