交叉计数的数据结构

时间:2015-07-10 12:08:48

标签: algorithm hyperloglog

对于各种组合(符合标准的用户),我们有一个要求,即我们必须每月的每个小时维护不同的计数。我们正在考虑使用HyperLogLog,其他要求之一是提供匹配条件(标准)的并集和交集的计数。

我们必须在一天/一周/一个月内完成这些操作。据我所知,通过hyperloglog支持联合。对于交叉点,超过2个hyperloglog似乎具有高错误率。是否有任何其他数据结构我们可以为交叉点仅满足具有高基数的低空间要求或支持交叉和并集以计算大的不同事件的东西?

任何指针都会有所帮助。谢谢!

1 个答案:

答案 0 :(得分:0)

使用MinHash检查扩充HyperLogLog。