如何检查ElasticSearch上的重复数据?

时间:2013-01-13 03:57:51

标签: search elasticsearch deduplication

当存储一些文档时,它应该存储不存在而忽略其余文件(这应该在应用程序级别完成,也许检查文档的id是否已经存在等等?)

1 个答案:

答案 0 :(得分:8)

以下是文档中所述的内容:

操作类型

索引操作还接受可用于强制创建操作的op_type,允许“put-if-absent”行为。使用create时,如果索引中已存在该id的文档,则索引操作将失败。

以下是使用op_type参数的示例:

$ curl -XPUT 'http://localhost:9200/twitter/tweet/1?op_type=create' -d '{
    "user" : "kimchy",
    "post_date" : "2009-11-15T14:12:12",
    "message" : "trying out Elastic Search"
}'

指定create的另一个选项是使用以下uri:

$ curl -XPUT 'http://localhost:9200/twitter/tweet/1/_create' -d '{
    "user" : "kimchy",
    "post_date" : "2009-11-15T14:12:12",
    "message" : "trying out Elastic Search"
}'