比术语“聚合”更有效的聚合?

时间:2018-07-27 14:19:13

标签: python performance elasticsearch nosql duplicates

我有1003000个文档,其中大多数是重复的。我检查了聚合一词,发现我有245538个不同的键(此表中有一个id字段)。

此聚合耗时约1秒,这真是太好了。但是,我需要找到重复的文档的“ _id”。所以我在那个聚合上做了一个聚合

'aggs': {
    'dupcount': {
        'terms': {
            'field': 'id',
            'min_doc_count': 2,
            'size': 300000
        },
        'aggs': {
            'dupdoc': {
                'top_hits': {
                    'size': 16
                }
            }
        }
    }
}

热门匹配的大小为16,因为1个键的最大重复项为16。

不幸的是,这对于群集本身来说太重了,它关闭了。

另一种选择是使用扫描API,但大约需要20秒的时间。那么在这种情况下是否有更有效,更稳定的聚合来找到重复项?

我正在将ElasticSearch 6.3与python配合使用,谢谢。

0 个答案:

没有答案