我不知道我想要的是否可能,但是这是:
假设我有几个短语,我想生成一些可以代表文本的短语字符串。我将把它应用于很多文本。之后,我比较结果字符串,看看另一个文本有多少不同。
我不需要知道差异在哪里或检索原始字符串,我只需要比较字符串。
有类似的东西吗?我的解决方案很复杂?
答案 0 :(得分:4)
有这样的技术,被称为模糊散列。看看ssdeep。您也可能对论文Identifying almost identical files using context triggered piecewise hashing
感兴趣。