我想比较不同的编辑距离(也包括基于令牌的,语音的等),以找出它们的最佳用例。但也有类似的表现。能够用数值证明它会很好。
我在python上使用了textdistance软件包,该软件包对几乎所有相似度都有标准化的功能。然后,我创建了一些字符串操作用例(例如,字母缺失,乱序,颠倒)作为适用于字符串的python函数。然后,我将每次测量的平均值作为下图。
但是我真正想要的是找出哪些字符串量度是相似的,哪些是很大的差异,以及在哪种情况下。有人建议使用k均值,但如果您只有一个数字特征和一个分类特征,我就觉得很麻烦。 是我必须对图形进行积分的唯一选择吗?
一些功能:
def reverse(string):
return string[::-1]
def letter_missing_front(string):
b = rd.randint(0, int(len(string)/2))
return string[:b] + string[b+1:]
结果应类似于: *案例:最佳度量,相似执行度量的集群,异常值
类似: letter_missing_f:重叠,jaro_winkler和levenshtein,arth_ncd bwrtle_ncd