我想比较某些文本中的相似性以检测重复项,但是如果我使用difflib,它会根据我给数据的顺序返回不同的比率。
一些随机示例....
谢谢
import difflib
a='josephpFRANCES'
b='ABswazdfsadSASAASASASAS'
seq=difflib.SequenceMatcher(None,a,b)
d=seq.ratio()*100
print(d)
seq2=difflib.SequenceMatcher(None,b,a)
d2=seq2.ratio()*100
print(d2)
d = 16.216216216216218
d2 = 10.81081081081081
答案 0 :(得分:1)
根据a
与b
的长度与b
的长度的不同来确定a
与a
之间的差异比”,因此交换a
和b
自然会产生不同的结果。这类似于“ 5比4大25%”,而“ 4比5小20%”。在您的示例中,a
比b
短得多,因此,尽管a
和b
之间的差异相同,但是当除数因比较不同,差异比率也不同。