Question

我想比较不同的编辑距离（也包括基于令牌的，语音的等），以找出它们的最佳用例。但也有类似的表现。能够用数值证明它会很好。

我在python上使用了textdistance软件包，该软件包对几乎所有相似度都有标准化的功能。然后，我创建了一些字符串操作用例（例如，字母缺失，乱序，颠倒）作为适用于字符串的python函数。然后，我将每次测量的平均值作为下图。

graph for comparsion 但是我真正想要的是找出哪些字符串量度是相似的，哪些是很大的差异，以及在哪种情况下。有人建议使用k均值，但如果您只有一个数字特征和一个分类特征，我就觉得很麻烦。是我必须对图形进行积分的唯一选择吗？

一些功能：

def reverse(string):
    return string[::-1]

def letter_missing_front(string):
    b = rd.randint(0, int(len(string)/2))
    return string[:b] + string[b+1:]

结果应类似于： *案例：最佳度量，相似执行度量的集群，异常值

类似： letter_missing_f：重叠，jaro_winkler和levenshtein，arth_ncd bwrtle_ncd

如何比较用例的不同编辑距离？

0 个答案: