标签: hash similarity
是否有一些哈希算法可以将类似的文本文档哈希到特定的哈希值?
例如,
A =“这是样本文本1” B =“这是样本文本2”
A和B需要被散列为相同的值。
我做了一些研究并阅读了有关SimHash和LSH算法的内容。 Simhash导致哈希冲突,并且可以通过使用汉明距离来定义相似性。
理想情况下,我希望类似“如果字符串A和字符串B相差可接受的相似性阈值(t
答案 0 :(得分:0)
一个显而易见的选择是使用Soundex或其中一个变体(取决于这些单词的语言)。
您没有指定您需要的内容。