计算两个HTML文件的百分比差异

时间:2013-03-25 14:28:26

标签: php html diff levenshtein-distance

我正在用PHP编写一个工具来比较HTML文件并显示差异。现在我正在寻找一种有效的方法来计算两个HTML文件之间的百分比差异。这些文件可以是任意长的(我拥有的文件可以长达300000个字符)。

经过一番研究后,我偶然发现Levensthein距离是一个O(n * m)的算法,需要空间O(n * m):php版本最多只能支持255个字符和我自己的O( n)空间太慢了。 之后,我尝试了php函数similar_text,但对于非常大的HTML文件,该算法也太慢了。

所以现在我正在寻找另一种更有效的算法来比较HTML文件。近似算法也很好。任何人都可以就如何做到这一点给我一些建议吗?

1 个答案:

答案 0 :(得分:1)

您可以设置xdiff扩展名:

http://www.php.net/manual/en/function.xdiff-file-diff.php

然后获取两个文件的差异,并根据该差异,您可以很容易地得到百分比。

示例:

  • 第一个文件A:400字
  • 第二档案B:400字

差异结果:从A到B的200个字差异

这会给你50%的相似度。