比较不同语言的短字符串以获得相似的声音 - 是Soundex的答案吗?

时间:2011-05-26 15:18:21

标签: unicode match soundex similarity phonetics

如果用另一种语言的另一个字符串用一种语言编写的字符串获得声音相似度“评级”:即识别该字符串的算法

David Letterman ”和“דודלטרמן”是完全相同的字符串。

- 哦,是的,顺便说一句,上面是希伯来语,你猜对了:“大卫莱特曼”,它的声音/口语几乎和英语一样。

我所拥有的唯一原材料是各自语言的unicode字符串。 也就是说,我有音素或语音转录/字符串的翻译。

我已经实现了一个Soundex实现调整的东西,它的工作原理一般。这是要走的路吗?

3 个答案:

答案 0 :(得分:7)

答案 1 :(得分:2)

我建议调查Daitch-Mokotoff Soundex Code(对希伯来语特别好)。 选中this,其中输入英文字符作为输入,this,将希伯来字符作为输入

答案 2 :(得分:1)

Soundex一般不太合适;它相当粗糙,有点适合英语。特别是,Soundex字符串的第一个字符是输入的第一个字符,因此除非您首先将希伯来字符音译为英语(拉丁语),否则您的英语/希伯来语示例将不会转换为相同的Soundex代码。西里尔文和中文都有从原生字符集到拉丁文的音译 - 但是如何完成它的变化。

调查Metaphone;然而,它在概念上类似于Soundex并具有类似的局限性。

我不知道跨语言的等同物。

我不知道IPA(国际音标)是否会有所帮助。你必须将英语和希伯来语翻译成IPA,然后使用一些相似性函数来关联相关的声音。