语音识别:检测日语假名(辅音+元音)

时间:2011-11-10 21:02:32

标签: nlp speech-recognition

我想找到一些开源代码(虽然我会选择一个封闭的源产品)来转换日语假名的传入音频流(即辅音+元音对)并将它们实时打印出来。

但是,我想将这些基本声音单元用于我自己的自定义目的,所以我不想要任何试图提取真正日语单词的高级处理。我只想得到原始假名。

有人知道这种技术吗?

我今天才知道日语'字母'基本上是Kana的10x5网格。 10列(空+9辅音)和5行(元音)

并且每个元素被称为'假名',并且该语言由这些假名的序列组成;这些是基本构建模块。

这肯定会对语音识别算法产生很大影响。

对于西方语言,我所知道的所有商业语音识别引擎都源自CMUSphinx,它运行在三元模型上:它表示具有唯一MFCC向量的三个音素之间的每个运动,并且最有可能一个话语的三元语法序列(从中可以简单地推断出音素,然后通过它的WORD-triplets字典,找出最可能的句子)。

但对于像日语这样的语言,我猜这可能不再是最有效的算法。

相反,尝试捕捉每个假名或假名对可能是有意义的。

......这将是2克或4克。但不是3!

那里有什么吗?或者他们只是使用与西方世界相同的引擎?

1 个答案:

答案 0 :(得分:2)

朱利叶斯拥有日语的声学和语言模型。 试一试,看看它是否适合您的应用。

我不知道他们是否训练过语言模型,但Julius可以支持任何n-gram命令 反向通过。在前进中,它是支持二元组。通常反过来使用4克 通过。两个LM都使用Julius工具放在一起。

路易斯 ASR实验室