比较文本序列哪个顺序重要?

时间:2019-04-08 16:34:06

标签: python python-3.x nlp

我想比较某些文本中的相似性以检测重复项,但是如果我使用difflib,它会根据我给数据的顺序返回不同的比率。

一些随机示例....

谢谢

import difflib


a='josephpFRANCES'
b='ABswazdfsadSASAASASASAS'

seq=difflib.SequenceMatcher(None,a,b)
d=seq.ratio()*100
print(d)

seq2=difflib.SequenceMatcher(None,b,a)
d2=seq2.ratio()*100
print(d2)

d = 16.216216216216218

d2 = 10.81081081081081

1 个答案:

答案 0 :(得分:1)

根据ab的长度与b的长度的不同来确定aa之间的差异比”,因此交换ab自然会产生不同的结果。这类似于“ 5比4大25%”,而“ 4比5小20%”。在您的示例中,ab短得多,因此,尽管ab之间的差异相同,但是当除数因比较不同,差异比率也不同。