有没有办法确定给定多个文本实例的相似性,可能是百分比或其他方式可以显示给定文本彼此之间有多少。
T1 = abcabcabc
T2 = xyzabcxyzabcxyz
T3 = abcxyzabc
相似性如下:
*abc*abc* or maybe 66%
目前我无法更具体。
如果提供代码,我更喜欢python,但任何脚本语言或类似内容都是好的,伪代码或对问题解决网站的引用。
答案 0 :(得分:1)
有多种方法可以测量文本之间的距离。
查看String metric了解更多详情。
在pypi
上有一个Levenshtein distance的工具,我没有亲自尝试过。
虽然Levenshtein距离计算将一个字符串转换为另一个字符串的最小步骤,但您可以使用step / len(string)
来获得两个字符串的相似百分比。