我是Blooming过滤器概念的新手。请让我知道你对此的看法。我有3种类别。每种类型都包含数十亿个类别。
我是否需要3个布隆过滤器对象,或者有没有办法管理对象中的所有类别类型?
我正在使用Apache hadoop bloom过滤器实现,即org.apache.hadoop.util.bloom.Filter
。还有比这更好的其他实现吗?
处理十亿条记录的理想位数大小应该是什么?
答案 0 :(得分:2)
我需要3个布隆过滤器对象:取决于你想要做什么(你没有描述),是的。
还有其他任何实现:确定!尝试使用Google。
理想位数组大小:取决于您想要做什么。尝试阅读Wikipedia article about Bloom filters。有计算概率的公式。