标签: data-structures hash count language-agnostic
我的集合中的元素数量超过十亿2 30 。我打算计算集合中每个元素的出现次数。为此,我想使用count-min草图。请建议如何选择哈希函数。我的申请可以容忍最多5%的误报率。
答案 0 :(得分:0)
Count-Min Sketch需要2个独立的散列函数,但在实践中,我强烈推荐MurmurHash。它快速而强大,非常适合Count-Min Sketch。