通过solr中的多个唯一键识别文档

时间:2014-11-20 13:39:43

标签: solr unique-key

按照本指南,我一直在设置SOLR以自动为我的文档生成ID: https://wiki.apache.org/solr/UniqueKey,按预期工作。

现在,在插入文档时,我想检查/确保url字段(只是一个字符串)对于索引中的所有文档都是唯一的。因此,每当添加新文档时,如果已存在具有该特定URL的文档,则它应该仅更新任何现有文档。 唯一ID用于标识系统另一部分中的文档。

我已经尝试将url添加到url字段,但它只是被忽略,因此仍然可以添加带有非唯一URL的文档。

我正在使用SOLR 4.10.2。

非常感谢任何帮助!

1 个答案:

答案 0 :(得分:0)

您可以使用"重复数据删除"来防止重复项进入索引。 Solr功能。请查看Wiki的配置和更多详细信息:https://cwiki.apache.org/confluence/display/solr/De-Duplication

还有一个标志" overwriteDupes"我认为发布更新"覆盖旧值的命令,尽管在wiki中没有明确记录。