我已经按照教程https://cmusphinx.github.io/wiki/tutorialam/来为我的越南语训练新的声学模型。简而言之,我记录了从0到9的数字以进行训练,并且还使用这些经过训练的数据进行测试。因此,准确度应为预期的100%。但是,它只有大约20%(仅识别2和3)。我已经重新录制了很多遍,但是没有改变。我可以确保完全满足所有要求,例如16k采样率,16位深度,...
有人可以给我一些解释以及改进模型的方法吗?谢谢你们
答案 0 :(得分:1)
好的,这是我为所有遇到相同问题的人提供的解决方案https://sourceforge.net/p/cmusphinx/discussion/help/thread/4563203ac5/。
答案 1 :(得分:0)
训练数据不足。根据{{3}},您需要:
- 一个小时的录音,用于单个扬声器的命令和控制
- 录制200个扬声器的5小时,以控制和控制许多扬声器
- 单人听写10个小时的录音
- 200个扬声器的录音长达50小时,满足许多讲话者的口述
您可以从tutorial
获取越南语数据