Lsh算法和乐队

时间:2015-04-01 20:13:49

标签: algorithm nearest-neighbor

我阅读了很多关于lsh算法的资料,但我对它有一个疑问,正是在乐队上。

S1 = {1, 2, 4, 5} //band signatures for set S1
S2 = {5, 4, 4, 8} //band signatures for set S2
S3 = {1, 2, 4, 9} //band signatures for set S3

当我在一个确定的波段中得到一组(例如S1)的所有minwise签名时,我必须做什么?我必须总结这些签名(例如1 + 2 + 4 + 5)或一个或运算符(例如1或2或4或5)或其他什么?

2 个答案:

答案 0 :(得分:0)

这取决于你想要达到的目标。

我个人喜欢使用波段签名来创建签名之间的关系,因此只有当这些数据具有定义波段的所有相同签名时,两个数据才具有相同的绑定签名

答案 1 :(得分:0)

在LSH中,您所谈论的是两个文档落在同一存储桶中的概率。生成minhash后,应将它们划分为每个包含“ r”行的“ b”带。然后,共享相同频段的文档将被选为相似文档。在找到给定文档的候选者之后,您可以使用任何想要度量相似度的相似度度量,并选择k个最相似的文档。