以类似的方式对文本进行编码

时间:2019-05-03 13:49:14

标签: hash

让我们有两个文本文档,我们希望以一种不逐字母的方式比较它们。我正在寻找一种将文本编码为长度为N(例如256个字符)的哈希(如果单词hash在这里合适)的方式,并且可以进行比较。

例如,让a='Text1', b='Text 1', c='Text 12'd ='John'。我想要一种像这样的哈希(长度为5)

xyztrg
xyutrg
xyvtrg
abcdef

1 个答案:

答案 0 :(得分:0)

我认为您需要的是对位置敏感的哈希:https://en.wikipedia.org/wiki/Locality-sensitive_hashing

该技术很有可能将相似的输入项散列到相同的“存储桶”中。

根据您使用的编程语言,有很多实现方式