HyperLogLog桶大小限制

时间:2017-06-27 15:58:50

标签: algorithm bigdata

在HyperLogLog中,32位散列数据的桶大小应在4到16位之间。这导致m = 16,32,64,...,65536,误差为1.04 / sqrt(m)。 M = 2 ^(桶大小)。

在此范围内选择m的原因是什么?

我们这样选择它是因为寄存器数组的内存使用情况以及错误收敛为零吗?

1 个答案:

答案 0 :(得分:0)

原则上,Hyperloglog算法适用于任何数量的桶,这是2的幂。但是,大多数实现添加了一些限制。桶大小通常在5到8位之间,也取决于实现。