标签: code-duplication locality-sensitive-hash
我当时正在研究使用随机投影创建可检测重复文本的应用程序的局部敏感哈希。我理解它的概念,即我们将输入数据投影在随机生成的向量上。但是我不明白我们如何创建不同的哈希函数。我们是否将随机生成的向量分成L个不同的集合,而每个集合对应于一个不同的函数,还是其他东西?因为,如果是这种情况,那么我们只能使用一个哈希函数,在哈希值中包含更多位。