确定多个文本块之间的相似性

时间:2016-03-30 10:41:17

标签: python text comparison data-analysis

有没有办法确定给定多个文本实例的相似性,可能是百分比或其他方式可以显示给定文本彼此之间有多少。

T1 = abcabcabc
T2 = xyzabcxyzabcxyz
T3 = abcxyzabc

相似性如下:

*abc*abc* or maybe 66%

目前我无法更具体。

如果提供代码,我更喜欢python,但任何脚本语言或类似内容都是好的,伪代码或对问题解决网站的引用。

1 个答案:

答案 0 :(得分:1)

有多种方法可以测量文本之间的距离。

查看String metric了解更多详情。

pypi上有一个Levenshtein distance的工具,我没有亲自尝试过。

wiki

还有另一个

虽然Levenshtein距离计算将一个字符串转换为另一个字符串的最小步骤,但您可以使用step / len(string)来获得两个字符串的相似百分比。