当我想在我的程序中使用bloomfilter时,其中有一些误报率。我不知道如何为这些会误判的单词创建一个whiltelist?有人可以给我一些指示吗?
答案 0 :(得分:2)
如果您可以限制可能对Bloom过滤器进行查询的空间,则可以在将条目分组到Bloom过滤器后创建此类列表。这个想法是,如果您事先知道所有可能的查询,并且该集合的大小相当小,您可以进行所有这些查询并保存所有误报“是”答案以及布隆过滤器以便知道避免他们在你跑步期间。最近的生物信息学文章就是这样做的:http://minia.genouest.org/files/minia.pdf。
当然,这取决于利用散列对象的某些属性。在链接到案例中,它知道条目与DNA k-mers重叠,因此它们的扩展在每一端只能有4个可能值中的一个。