Question

我有1003000个文档，其中大多数是重复的。我检查了聚合一词，发现我有245538个不同的键（此表中有一个id字段）。

此聚合耗时约1秒，这真是太好了。但是，我需要找到重复的文档的“ _id”。所以我在那个聚合上做了一个聚合

'aggs': {
    'dupcount': {
        'terms': {
            'field': 'id',
            'min_doc_count': 2,
            'size': 300000
        },
        'aggs': {
            'dupdoc': {
                'top_hits': {
                    'size': 16
                }
            }
        }
    }
}

热门匹配的大小为16，因为1个键的最大重复项为16。

不幸的是，这对于群集本身来说太重了，它关闭了。

另一种选择是使用扫描API，但大约需要20秒的时间。那么在这种情况下是否有更有效，更稳定的聚合来找到重复项？

我正在将ElasticSearch 6.3与python配合使用，谢谢。

比术语“聚合”更有效的聚合？

0 个答案: