计算文本的变化量?

时间:2014-08-05 12:43:00

标签: algorithm text compare

如何计算文本的更改量?

例如以下文字:

1. this is a test

相比
2. this is a testx

此处的变化非常小(最后添加x)

以下变化很大:

1. this is a test
2. this is a test with more text

(这里我添加了#39;更多文字')

我想到了测量字符串长度并使用它来计算变化百分比。但在下列情况下,这种方法很糟糕:

1. this is a test
2. and i rewrite

(几乎相同的长度,但完全不同的文字)

我怀疑很多人遇到了这个问题。但我似乎无法在谷歌上找到太多,可能是由于不知道该技术的名称可以衡量文本的变化。

2 个答案:

答案 0 :(得分:1)

您可以使用Levenshtein Distance Metric查看字符串彼此之间的差异,值越高,字符串越不同。

您还可以查看其他string comparison metrics

答案 1 :(得分:0)

取决于语言,但java和python都有相当好的字符串比较函数,所以你只需要编写一个特定的算法并使用一些循环来创建一定程度的错误或更改。