假设我们有两组的minhash签名,我们想要计算两组的Jaccard相似度。我们有:
Array(subjects)
-> S1 S2
h1 0 1
h2 1 2
h3 2 0
S1和S2在不同的顺序中具有相同的签名。 Jaccard的相似度是1/8还是1(大约)?
答案 0 :(得分:0)
这些是不同的哈希函数,因此h2(S1) == h1(S2)
没有任何意义。在比较不同散列的值时没有任何意义。所以直接回答 - 这里的相似性是0(没有碰撞),所以不是1/8也不是1.