有没有人知道一种算法比相对拼写或发音的单词的SOUNDEX更好?
修改
我正在寻找西班牙语的东西。
答案 0 :(得分:8)
Soundex是一个非常古老而简单的英语单词哈希。它旨在匹配拼写错误的单词;例如“他们的”,“他们的”和“那里”有相同的Soundex代码。
Soundex的问题包括它严重偏向于英语,丢弃了太多数据,因此有很多误报。英语单词的更好算法是Metaphone。
如果您希望匹配西班牙拼写错误,可以使用Double-Metaphone算法来接受声音相似的表格(例如“asta”和“hasta”)。你必须创建自己的表,我听说双Metaphone比单Metaphone慢几个数量级。
另一种选择是改变Metaphone算法以使用西班牙语音素而不是英语。有人已经done this in PHP。