bucket_count设置对应什么?这是否意味着将minhashes进一步散列为1到bucket_count-1之间的值?
在以下情况中生成minhashes会导致任何加速吗?
案例:索引1000万份文档,其中每个文档只是一组特征索引。可能的索引总数是10000.所以文档可能看起来像A = {1,5,7,500,750 ... 9800}而且,所有文档/集合都是固定长度的(假设它是196)。在这种情况下,检索与文档A最相似的文档意味着要遍历所有1000万个文档,以找到索引重叠最多的文档。
使用minhashes会加速上述相似性检索吗?这令人困惑的原因是原始文档/集合都相当小 - 196个特征。
使用默认存储桶大小528的Minhash标记化将生成长度为528的令牌集 - 比原始文档(如上所述为196)更长
在这种情况下,minhash实际上会以任何方式帮助加快检索吗?