应用错误收集

bucket_count设置对应什么？这是否意味着将minhashes进一步散列为1到bucket_count-1之间的值？

在以下情况中生成minhashes会导致任何加速吗？

案例：索引1000万份文档，其中每个文档只是一组特征索引。可能的索引总数是10000.所以文档可能看起来像A = {1,5,7,500,750 ... 9800}而且，所有文档/集合都是固定长度的（假设它是196）。在这种情况下，检索与文档A最相似的文档意味着要遍历所有1000万个文档，以找到索引重叠最多的文档。

使用minhashes会加速上述相似性检索吗？这令人困惑的原因是原始文档/集合都相当小 - 196个特征。

使用默认存储桶大小528的Minhash标记化将生成长度为528的令牌集 - 比原始文档（如上所述为196）更长

在这种情况下，minhash实际上会以任何方式帮助加快检索吗？

在elasticsearch中使用Minhash令牌过滤器

0 个答案: