我正在实施一个近邻搜索应用程序,它将找到类似的文档。到目前为止,我已经阅读了LSH相关材料的很大一部分(LSH背后的理论是某种令人困惑的,我现在还不能100%地完成它)。
我的代码能够使用minhash函数计算签名矩阵(我接近结尾)。我还在签名矩阵上应用了条带策略。但是我无法理解如何将波段中的签名向量(列)散列到桶中。
我的上一个问题可能是最重要的问题,但我不得不问一些introduction
个问题:
问题1:哈希函数是否只将相同的向量映射到同一个存储桶? (假设我们有足够的桶)
问题2:哈希函数是否应该将相似的向量映射到同一个存储桶?如果是,那么这种相似性的程度/定义是什么,因为我不是在计算比较,而是在做哈希。
q3:根据上面的问题,我应该使用哪种哈希表算法?
问题4:我认为我最弱的一点是我不知道如何生成一个哈希函数,它将向量作为输入并选择一个桶作为输出。我可以根据q1和q2自己实现一个...有关为LSH bucketing
生成哈希函数的任何建议吗?
答案 0 :(得分:5)
q1:你不应该散列整个矢量,而是它的一部分。假设您有长度为100的向量代表每个项目,您可以散列5个长度为20的切片。
问题2:这是整个事情背后的主要思想:通过比较事物的各个部分来衡量相似性。如果将文本中的句子视为向量,则2个句子不可能完全相同(具有相同的哈希输出)。但是,如果将它们分成几部分并分别对部分进行散列,则在相同位置的某些匹配单个单词的散列将返回相同的散列输出,因此您可以了解句子的相似性。
切片的数量和长度是影响相似结果准确性的重要参数。太多的切片会产生很多误报,而太少的切片只能识别出最高的相似度。
您可以在“挖掘大量数据集”一书中找到更多相关信息,请参阅此处: http://infolab.stanford.edu/~ullman/mmds.html
q3:您需要一个数据结构,对于每个切片级别,它可以保留每个矢量切片的散列结果,以及生成它的矢量。然后,当想要找到Vector X的类似邻居时,可以检查每个切片的数据结构,看看你得到的哈希输出是否也被另一个向量输出。
第四季:我不确定你的意思。如果对对象进行哈希处理,通常会根据语言获得位串或整数或浮点数作为输出。这就是桶。如果在不同的对象上使用相同的散列函数获得相同的输出,则意味着它们在同一个存储桶上进行了散列。答案 1 :(得分:0)
为LSH生成哈希函数的一种简单方法如下:
对于每个频段b的给定min-hash signature
i,计算频段中的行总和,将其称为S_ib
。为S_ib
创建一个存储桶。对于完整集合,该存储桶将附加总和与S_ib匹配的条目,否则将生成新存储桶。
来自集合导入defaultdict
....
LSHdictlist = [defaultdict(list) for b in range(bands)]
....
tempsum = np.int(np.sum(M[i,b*rowsinband:(b+1)*rowsinband]))
LSHdictlist[b][tempsum].append(i)
您也可以使用产品而不是总和。