有一种方法可以生成某种文本的哈希值来进行比较吗?

时间:2011-11-29 01:09:53

标签: string algorithm comparison

我不知道我想要的是否可能,但是这是:

假设我有几个短语,我想生成一些可以代表文本的短语字符串。我将把它应用于很多文本。之后,我比较结果字符串,看看另一个文本有多少不同。

我不需要知道差异在哪里或检索原始字符串,我只需要比较字符串。

有类似的东西吗?我的解决方案很复杂?

1 个答案:

答案 0 :(得分:4)

有这样的技术,被称为模糊散列。看看ssdeep。您也可能对论文Identifying almost identical files using context triggered piecewise hashing感兴趣。