Question

我想比较某些文本中的相似性以检测重复项，但是如果我使用difflib，它会根据我给数据的顺序返回不同的比率。

一些随机示例....

谢谢

import difflib


a='josephpFRANCES'
b='ABswazdfsadSASAASASASAS'

seq=difflib.SequenceMatcher(None,a,b)
d=seq.ratio()*100
print(d)

seq2=difflib.SequenceMatcher(None,b,a)
d2=seq2.ratio()*100
print(d2)

d = 16.216216216216218

d2 = 10.81081081081081

Answer 1

根据a与b的长度与b的长度的不同来确定a与a之间的差异比”，因此交换a和b自然会产生不同的结果。这类似于“ 5比4大25％”，而“ 4比5小20％”。在您的示例中，a比b短得多，因此，尽管a和b之间的差异相同，但是当除数因比较不同，差异比率也不同。

比较文本序列哪个顺序重要？

1 个答案: