如何比较用例的不同编辑距离?

时间:2019-04-26 07:01:20

标签: python comparison k-means similarity edit-distance

我想比较不同的编辑距离(也包括基于令牌的,语音的等),以找出它们的最佳用例。但也有类似的表现。能够用数值证明它会很好。

我在python上使用了textdistance软件包,该软件包对几乎所有相似度都有标准化的功能。然后,我创建了一些字符串操作用例(例如,字母缺失,乱序,颠倒)作为适用于字符串的python函数。然后,我将每次测量的平均值作为下图。

graph for comparsion 但是我真正想要的是找出哪些字符串量度是相似的,哪些是很大的差异,以及在哪种情况下。有人建议使用k均值,但如果您只有一个数字特征和一个分类特征,我就觉得很麻烦。 是我必须对图形进行积分的唯一选择吗?

一些功能:

def reverse(string):
    return string[::-1]

def letter_missing_front(string):
    b = rd.randint(0, int(len(string)/2))
    return string[:b] + string[b+1:]

结果应类似于: *案例:最佳度量相似执行度量的集群异常值

类似: letter_missing_f:重叠,jaro_winkler和levenshtein,arth_ncd bwrtle_ncd

0 个答案:

没有答案