矩阵M
是签名矩阵,它通过实际数据的Minhashing生成,文档为列,单词为行。因此,列表示文档。
现在它说每个条带(b
的数量,r
的长度)都有其列的哈希值,因此列落在一个桶中。如果两列落在同一个桶中,对于> = 1条纹,则它们可能相似。
这意味着我应该创建b
哈希表并找到b
个独立哈希函数?或者只有一个是足够的,每个条带将其列发送到相同的桶集合(但这不会取消条带)?
在这种情况下,字典是否足以用于散列表 * ?
答案 0 :(得分:0)
我想我想出来了,为未来的读者发帖。
我将使用一个字典,因为幻灯片提到可以为每个条带使用相同的哈希函数(dictionaries do that)。
每个桶都是我们字典的关键。
在插入时,文档(即属于条带的列)将通过散列函数(我们将创建)传递,结果应该是键。这样我们的字典就会被填充。