如何计算两个文本/字符串之间的相似性或差异百分比?

时间:2010-07-13 12:58:35

标签: php string text-processing

进一步解释

假设我有两个字符串,如下面

  

我是一个可以飞的超级男孩!真的。

     

我是超级男孩,可以打破墙壁!   真的。

因此,某些字符类似于I am super boy who canReally .。 有没有什么可以用来找到这两个字符串之间的百分比相似性/差异。

2 个答案:

答案 0 :(得分:4)

你应该看看Levenshtein距离。

http://en.wikipedia.org/wiki/Levenshtein_distance

答案 1 :(得分:0)

这个SO answer to a similar question给出了Levenshtein,Jaro Winkler和Smith Waterman Gotoh算法的PHP代码。

我发现Levenshtein和Jaro Winkler通常会在较小的字符串之间拼写错误。虽然Smith Waterman Gotoh is good at comparing sentences喜欢你问题中的例子。