过滤弹性搜索结果以仅包含基于一个字段值的唯一文档

时间:2014-10-22 13:50:00

标签: elasticsearch

我的所有文档都有一个uid字段,其中包含将文档链接到用户的ID。有多个文档具有相同的uid

我想对所有文件执行搜索,只返回每个唯一uid得分最高的文档。

选择相关文档的查询是一个简单的multi_match查询。

2 个答案:

答案 0 :(得分:20)

您需要top_hits汇总。

根据您的具体情况:

{
  "query": {
    "multi_match": {
      ...
    }
  },
  "aggs": {
    "top-uids": {
      "terms": {
        "field": "uid"
      },
      "aggs": {
        "top_uids_hits": {
          "top_hits": {
            "sort": [
              {
                "_score": {
                  "order": "desc"
                }
              }
            ],
            "size": 1
          }
        }
      }
    }
  }
}

上述查询确实会执行您的multi_match查询,并根据uid汇总结果。对于每个uid存储桶,它只返回一个结果,但是在存储桶中的所有文档都按照_score按顺序排序。

答案 1 :(得分:1)

ElasticSearch 5.3中,他们added支持字段折叠。您应该能够执行以下操作:

GET /_search
{
  "query": {
    "multi_match" : {
      "query":    "this is a test", 
      "fields": [ "subject", "message", "uid" ] 
    }
  },
  "collapse" : {
    "field" : "uid" 
  },
  "size": 20,
  "from": 100
}

使用字段折叠而不是热门匹配的好处是您可以将分页与字段折叠一起使用。