是否有比“Levenshtein距离”算法更准确的算法? http://en.wikipedia.org/wiki/Levenshtein_distance
答案 0 :(得分:4)
有Damerau–Levenshtein distance,它增加了对字符转置的支持,并为常见的错别字提供更多的覆盖。
要获得 Levenshtein 或 Damerau-Levenshtein 的相似百分比,请执行以下操作:
int relative_similarity = 1.0 - 1.0 / ((len(x) + len(y)) / 2) * lev(x, y); //untested
或者,您可能希望将longest common subsequence视为相似度量标准。
接下来有
是语音匹配算法。
虽然Smith
及其德语对应Schmidt
使用编辑距离(a.k.a Levenshtein)会变得非常不同,但Soundex和MEtaphone会认为它们在语音上相似甚至相当。
但如果没有告诉我们关于纯 Levenshtein距离的错误,很难猜出更好的算法。