我知道我们可以使用交叉相关来测量信号中的“相同性”,但我们如何计算文本中“相同性”的百分比?
例如我们有: 1.“令人敬畏的狗的传说” 2.“狗真棒的传说” 这就像是100%相同但是洗牌。
但配对时: 3.“狗极好的9号”,与句子1或2只有40%的同一性。
答案 0 :(得分:0)
您正在寻找aproximate string matching。 Excel提供免费的add-on,由Microsoft开发,用于创建所谓的模糊匹配。它使用Jaccard index算法来确定两个给定值的相似性。
FuzzyLookup.Similarity
;