两个词有多相似

时间:2011-12-06 23:59:13

标签: string algorithm

是否有比“Levenshtein距离”算法更准确的算法? http://en.wikipedia.org/wiki/Levenshtein_distance

1 个答案:

答案 0 :(得分:4)

Damerau–Levenshtein distance,它增加了对字符转置的支持,并为常见的错别字提供更多的覆盖。

要获得 Levenshtein Damerau-Levenshtein 的相似百分比,请执行以下操作:

int relative_similarity = 1.0 - 1.0 / ((len(x) + len(y)) / 2) * lev(x, y); //untested

或者,您可能希望将longest common subsequence视为相似度量标准。

接下来有

是语音匹配算法。

虽然Smith及其德语对应Schmidt使用编辑距离(a.k.a Levenshtein)会变得非常不同,但Soundex和MEtaphone会认为它们在语音上相似甚至相当。


但如果没有告诉我们关于纯 Levenshtein距离错误,很难猜出更好的算法。