有许多流行的算法可以根据英语单词的发音将英语单词编码为字符串。例如,soundex代码是由一个字母后跟三个数字组成的四个字符的字符串。
是否有一种有效的方法来计算0到1之间的相似度得分?
答案 0 :(得分:4)
一种可能性是使用一些编辑距离,例如Levinshtein distance,但不是实际的单词,而是soundex或phonetic representation中的表示。可以使用resprect到输入的长度来标准化该值。
答案 1 :(得分:1)
Soundex只能告诉你两个单词的发音是否相同,但无法计算两个单词之间的相似性。
Metaphone3(效果远远优于Soundex)有Result Ranking Algorithm。源代码价格为40美元(除了您将为Metaphone的源代码本身支付的240美元/ 260美元之外)。
虽然Metaphone3 may be found online的开源版本,但结果排名仅在商业上可用。
我不相信你会找到更好的东西。
答案 2 :(得分:0)
metaphone3包含结果排名算法,价格为260美元。链接中的免费版本的metaphone3是2010年的旧版本。商业版的最新版本来自2015年