针对数十亿个类别的Bloom过滤器实现

时间:2014-01-30 05:19:52

标签: java hadoop bloom-filter

我是Blooming过滤器概念的新手。请让我知道你对此的看法。我有3种类别。每种类型都包含数十亿个类别。

  1. 我是否需要3个布隆过滤器对象,或者有没有办法管理对象中的所有类别类型?

  2. 我正在使用Apache hadoop bloom过滤器实现,即org.apache.hadoop.util.bloom.Filter。还有比这更好的其他实现吗?

  3. 处理十亿条记录的理想位数大小应该是什么?

1 个答案:

答案 0 :(得分:2)

  1. 我需要3个布隆过滤器对象:取决于你想要做什么(你没有描述),是的。

  2. 还有其他任何实现:确定!尝试使用Google

  3. 理想位数组大小:取决于您想要做什么。尝试阅读Wikipedia article about Bloom filters。有计算概率的公式。