LSH使用的哈希混淆

时间:2016-05-07 14:54:05

标签: python hash nearest-neighbor locality-sensitive-hash bigdata

enter image description here

矩阵M是签名矩阵,它通过实际数据的Minhashing生成,文档为列,单词为行。因此,列表示文档。

现在它说每个条带(b的数量,r的长度)都有其列的哈希值,因此列落在一个桶中。如果两列落在同一个桶中,对于> = 1条纹,则它们可能相似。

这意味着我应该创建b哈希表并找到b个独立哈希函数?或者只有一个是足够的,每个条带将其列发送到相同的桶集合(但这不会取消条带)?

在这种情况下,字典是否足以用于散列表 *

* <子> Is a Python dictionary an example of a hash table?

1 个答案:

答案 0 :(得分:0)

我想我想出来了,为未来的读者发帖。

我将使用一个字典,因为幻灯片提到可以为每个条带使用相同的哈希函数(dictionaries do that)。

每个桶都是我们字典的关键。

在插入时,文档(即属于条带的列)将通过散列函数(我们将创建)传递,结果应该是键。这样我们的字典就会被填充。