将相似的字符串哈希到相同的哈希值

时间:2012-05-15 11:03:51

标签: hash similarity

是否有一些哈希算法可以将类似的文本文档哈希到特定的哈希值?

例如,

A =“这是样本文本1” B =“这是样本文本2”

A和B需要被散列为相同的值。

我做了一些研究并阅读了有关SimHash和LSH算法的内容。 Simhash导致哈希冲突,并且可以通过使用汉明距离来定义相似性。

理想情况下,我希望类似“如果字符串A和字符串B相差可接受的相似性阈值(t

1 个答案:

答案 0 :(得分:0)

一个显而易见的选择是使用Soundex或其中一个变体(取决于这些单词的语言)。

您没有指定您需要的内容。

  • 如果你需要创建某种哈希表变体,你可以在同一个桶中放置类似的字符串,soundex变体可以工作,但是你需要考虑到碰撞的可能性。
  • 如果您只需要指出两个字符串的相似程度,您还可以查看一个名为Simil的算法;请参阅this link或拼写检查相关算法。