应用错误收集

有一种方法可以生成某种文本的哈希值来进行比较吗？

时间：2011-11-29 01:09:53

标签： string algorithm comparison

我不知道我想要的是否可能，但是这是：

假设我有几个短语，我想生成一些可以代表文本的短语字符串。我将把它应用于很多文本。之后，我比较结果字符串，看看另一个文本有多少不同。

我不需要知道差异在哪里或检索原始字符串，我只需要比较字符串。

有类似的东西吗？我的解决方案很复杂？

1 个答案:

答案 0 :(得分：4)

有这样的技术，被称为模糊散列。看看ssdeep。您也可能对论文Identifying almost identical files using context triggered piecewise hashing感兴趣。