比SOUNDEX更好的东西

时间:2011-07-04 21:25:10

标签: sql algorithm search relative soundex

有没有人知道一种算法比相对拼写或发音的单词的SOUNDEX更好?

修改

我正在寻找西班牙语的东西。

1 个答案:

答案 0 :(得分:8)

Soundex是一个非常古老而简单的英语单词哈希。它旨在匹配拼写错误的单词;例如“他们的”,“他们的”和“那里”有相同的Soundex代码。

Soundex的问题包括它严重偏向于英语,丢弃了太多数据,因此有很多误报。英语单词的更好算法是Metaphone

如果您希望匹配西班牙拼写错误,可以使用Double-Metaphone算法来接受声音相似的表格(例如“asta”和“hasta”)。你必须创建自己的表,我听说双Metaphone比单Metaphone慢几个数量级。

另一种选择是改变Metaphone算法以使用西班牙语音素而不是英语。有人已经done this in PHP