在kibana中运行此搜索:
GET myindex/mytype/_search
{"size": 0,
"aggs": {
"duplicateCount": {
"terms": {
"field": "myfield",
"min_doc_count": 2
}
}
}
}
给出:
{
"took": 6,
"timed_out": false,
"_shards": {
"total": 12,
"successful": 12,
"failed": 0
},
"hits": {
"total": 46117,
"max_score": 0,
"hits": []
},
"aggregations": {
"duplicateCount": {
"doc_count_error_upper_bound": 12,
"sum_other_doc_count": 45817,
"buckets": []
}
}
}
我不确定如何解释这个结果。根据{{3}} sum_other_doc_count
表示:
当有很多独特的术语时,Elasticsearch只返回顶部术语;此数字是不属于响应的所有存储桶的文档计数总和
由于响应中没有存储桶,因此显然存在未包含的存储桶似乎很奇怪。 sum_other_doc_count
是否包含min_doc_count
排除的存储桶,因此结果可以解释为没有myfield
的重复文档?
如果是后者,假设 桶已返回,则可能会得到some_other_doc_count
不包含min_doc_count
个排除的桶,或者总计桶的数量?
更新: 似乎我可以通过基数聚合获得我想要的一些信息。总记录 - 字段基数提供具有重复字段的大致文档数。