我想看看两个非英语字符串在语音上是如何相似的,AFAIK soundex和metaphone实现仅适用于基于英语的字符串,例如coração
and corassão
声音完全相同葡萄牙语metaphone()
返回KR
and KRS
。其他音素会发生同样的事情,chita
and xita
会返回XT
and ST
,但它们的声音相同。
我也试过这个Double Metaphone implementation(demo)但结果完全相同。
那么,有没有可以使用葡萄牙语单词的替代算法?我read about Lucene in this other question,但我以前从未使用它,我不确定它是如何工作的或如何使用它。
如果没有,是否有人知道我需要收集什么样的数据来开发类似metaphone的算法呢?