CMUSphinx训练声学模型精度非常低

时间:2019-05-15 03:58:45

标签: speech-recognition speech-to-text cmusphinx

我已经按照教程https://cmusphinx.github.io/wiki/tutorialam/来为我的越南语训练新的声学模型。简而言之,我记录了从0到9的数字以进行训练,并且还使用这些经过训练的数据进行测试。因此,准确度应为预期的100%。但是,它只有大约20%(仅识别2和3)。我已经重新录制了很多遍,但是没有改变。我可以确保完全满足所有要求,例如16k采样率,16位深度,...

有人可以给我一些解释以及改进模型的方法吗?谢谢你们

这是我的项目:https://github.com/legiaquy/test

2 个答案:

答案 0 :(得分:1)

好的,这是我为所有遇到相同问题的人提供的解决方案https://sourceforge.net/p/cmusphinx/discussion/help/thread/4563203ac5/

答案 1 :(得分:0)

训练数据不足。根据{{​​3}},您需要:

  
      
  • 一个小时的录音,用于单个扬声器的命令和控制
  •   
  • 录制200个扬声器的5小时,以控制和控制许多扬声器
  •   
  • 单人听写10个小时的录音
  •   
  • 200个扬声器的录音长达50小时,满足许多讲话者的口述
  •   

您可以从tutorial

获取越南语数据