假设我的elasticsearch索引中的每个文档都是一篇博文,其中只包含两个字段,标题和标签。 标题字段只是一个字符串,而标记是一个多值字段。
如果我有三个这样的文件:
title tags
"blog1" [A,B,C]
"blog2" [A,B]
"blog3" [B,C]
我想了解所有可能标签的唯一值,但是如何获得如下结果,其中包含一个桶中的三个项目。或者有任何有效的替代方案吗?
{A: ["blog1", "blog2"]}
{B: ["blog1", "blog2", "blog3"]}
{C: ["blog1", "blog3"]}
如果有人可以在elasticsearch python API中提供答案,那就太好了。
答案 0 :(得分:2)
您只需在terms
字段和另一个嵌套tags
子聚合上使用top_hits
聚合即可。通过以下查询,您将获得预期的结果。
{
"size": 0,
"aggs": {
"tags": {
"terms": {
"field": "tags"
},
"aggs": {
"top_titles": {
"top_hits": {
"_source": ["title"]
}
}
}
}
}
}
在Python中使用它非常简单:
from elasticsearch import Elasticsearch
client = Elasticsearch()
response = client.search(
index="my-index",
body= {
"size": 0,
"aggs": {
"tags": {
"terms": {
"field": "tags"
},
"aggs": {
"top_titles": {
"top_hits": {
"_source": ["title"]
}
}
}
}
}
}
)
# parse the tags
for tag in response['aggregations']['tags']['buckets']:
tag = tag['key'] # => A, B, C
# parse the titles for the tag
for hit in tag['top_titles']['hits']['hits']:
title = hit['_source']['title'] # => blog1, blog2, ...