让我们有两个文本文档,我们希望以一种不逐字母的方式比较它们。我正在寻找一种将文本编码为长度为N
(例如256个字符)的哈希(如果单词hash在这里合适)的方式,并且可以进行比较。
例如,让a='Text1', b='Text 1', c='Text 12'
和d ='John'
。我想要一种像这样的哈希(长度为5)
xyztrg
xyutrg
xyvtrg
abcdef
答案 0 :(得分:0)
我认为您需要的是对位置敏感的哈希:https://en.wikipedia.org/wiki/Locality-sensitive_hashing
该技术很有可能将相似的输入项散列到相同的“存储桶”中。
根据您使用的编程语言,有很多实现方式