我有1003000个文档,其中大多数是重复的。我检查了聚合一词,发现我有245538个不同的键(此表中有一个id字段)。
此聚合耗时约1秒,这真是太好了。但是,我需要找到重复的文档的“ _id”。所以我在那个聚合上做了一个聚合
'aggs': {
'dupcount': {
'terms': {
'field': 'id',
'min_doc_count': 2,
'size': 300000
},
'aggs': {
'dupdoc': {
'top_hits': {
'size': 16
}
}
}
}
}
热门匹配的大小为16,因为1个键的最大重复项为16。
不幸的是,这对于群集本身来说太重了,它关闭了。
另一种选择是使用扫描API,但大约需要20秒的时间。那么在这种情况下是否有更有效,更稳定的聚合来找到重复项?
我正在将ElasticSearch 6.3与python配合使用,谢谢。