字符串是否有哈希函数,这样小编辑距离内的字符串(例如,拼写错误)会映射到相同或非常接近的哈希值,而不相似的字符串往往不会?
答案 0 :(得分:0)
一种选择是计算所有k
- mers(长度为k
的子串)的集合,对它们进行散列并计算最小值。
因此,您正在结合带状疱疹的想法,以及minhashing的想法。
(重复多次以获得更好的结果,与LSH方案一样)
这是如何工作的方式是两个具有相同minhash的字符串的概率与它们的k
- mer集的Jackard相似性相同。
k
- mer集的相似性与编辑距离有关(但不相同)。