音箱适应印度口音kaldi ASR的声学模型

时间:2015-10-24 11:42:28

标签: neural-network speech-recognition speech-to-text

我正致力于为印度口音演讲者提供语音识别。目前,我正在使用Kaldi ASR的在线nnet2解码工具。 当扬声器具有良好的英语发音时,该工具运行良好。但是,当演讲者的口音与美国英语口音不同时,它就失败了。

那么,任何人都可以建议使用Kaldi ASR进行声学或神经网络模型的说话人适应的任何程序吗?

1 个答案:

答案 0 :(得分:0)

有很多方法可以做到这一点或者想一想。

1 - 如果你只谈论口音(这意味着,没有新词,标准语法) - >那么你应该主要使用模型的声学部分。获得尽可能多的音频和你可以转录数据(数百小时),这样你就可以更新模型的H部分。

2 - 如果你在谈论更复杂的事情,你应该考虑更新词典(添加单词)&语法(fst' s)也是(包括我的第一点)。

您可以尝试从AMI模型及其论文开始,这些论文包含在Kaldi的示例中。见Examples included with Kaldi