字符串的局部敏感散列?

时间:2017-08-24 21:12:26

标签: algorithm hash edit-distance locality-sensitive-hash

字符串是否有哈希函数,这样小编辑距离内的字符串(例如,拼写错误)会映射到相同或非常接近的哈希值,而不相似的字符串往往不会?

1 个答案:

答案 0 :(得分:0)

一种选择是计算所有k - mers(长度为k的子串)的集合,对它们进行散列并计算最小值。 因此,您正在结合带状疱疹的想法,以及minhashing的想法。 (重复多次以获得更好的结果,与LSH方案一样)

这是如何工作的方式是两个具有相同minhash的字符串的概率与它们的k - mer集的Jackard相似性相同。 k - mer集的相似性与编辑距离有关(但不相同)。