我正致力于为印度口音演讲者提供语音识别。目前,我正在使用Kaldi ASR的在线nnet2解码工具。 当扬声器具有良好的英语发音时,该工具运行良好。但是,当演讲者的口音与美国英语口音不同时,它就失败了。
那么,任何人都可以建议使用Kaldi ASR进行声学或神经网络模型的说话人适应的任何程序吗?
答案 0 :(得分:0)
有很多方法可以做到这一点或者想一想。
1 - 如果你只谈论口音(这意味着,没有新词,标准语法) - >那么你应该主要使用模型的声学部分。获得尽可能多的音频和你可以转录数据(数百小时),这样你就可以更新模型的H部分。
2 - 如果你在谈论更复杂的事情,你应该考虑更新词典(添加单词)&语法(fst' s)也是(包括我的第一点)。
您可以尝试从AMI模型及其论文开始,这些论文包含在Kaldi的示例中。见Examples included with Kaldi