标签: distance bloom-filter
我想比较两个大的字符串列表(可能最多4 ^ 31个元素)。 我尝试了Jaccard distance和MinHash(暂时使用Perl),这给出了很好的结果,但我有一个内存问题。所以我将我的列表表示为Bloom过滤器。
有没有办法使用布隆过滤器作为输入来近似Jaccard距离?或者为此目的选择布隆过滤器?