应用错误收集

我想看看两个非英语字符串在语音上是如何相似的，AFAIK soundex和metaphone实现仅适用于基于英语的字符串，例如coração and corassão声音完全相同葡萄牙语metaphone()返回KR and KRS。其他音素会发生同样的事情，chita and xita会返回XT and ST，但它们的声音相同。

我也试过这个Double Metaphone implementation（demo）但结果完全相同。

那么，有没有可以使用葡萄牙语单词的替代算法？我read about Lucene in this other question，但我以前从未使用它，我不确定它是如何工作的或如何使用它。

如果没有，是否有人知道我需要收集什么样的数据来开发类似metaphone的算法呢？