应用错误收集

时间：2015-10-24 11:42:28

标签： neural-network speech-recognition speech-to-text

我正致力于为印度口音演讲者提供语音识别。目前，我正在使用Kaldi ASR的在线nnet2解码工具。当扬声器具有良好的英语发音时，该工具运行良好。但是，当演讲者的口音与美国英语口音不同时，它就失败了。

那么，任何人都可以建议使用Kaldi ASR进行声学或神经网络模型的说话人适应的任何程序吗？

答案 0 :(得分：0)

有很多方法可以做到这一点或者想一想。

1 - 如果你只谈论口音（这意味着，没有新词，标准语法） - ＆gt;那么你应该主要使用模型的声学部分。获得尽可能多的音频和你可以转录数据（数百小时），这样你就可以更新模型的H部分。

2 - 如果你在谈论更复杂的事情，你应该考虑更新词典（添加单词）＆amp;语法（fst＆＃39; s）也是（包括我的第一点）。

您可以尝试从AMI模型及其论文开始，这些论文包含在Kaldi的示例中。见Examples included with Kaldi