应用错误收集

CMUSphinx训练声学模型精度非常低

时间：2019-05-15 03:58:45

标签： speech-recognition speech-to-text cmusphinx

我已经按照教程https://cmusphinx.github.io/wiki/tutorialam/来为我的越南语训练新的声学模型。简而言之，我记录了从0到9的数字以进行训练，并且还使用这些经过训练的数据进行测试。因此，准确度应为预期的100％。但是，它只有大约20％（仅识别2和3）。我已经重新录制了很多遍，但是没有改变。我可以确保完全满足所有要求，例如16k采样率，16位深度，...

有人可以给我一些解释以及改进模型的方法吗？谢谢你们

这是我的项目：https://github.com/legiaquy/test

2 个答案:

答案 0 :(得分：1)

好的，这是我为所有遇到相同问题的人提供的解决方案https://sourceforge.net/p/cmusphinx/discussion/help/thread/4563203ac5/。

答案 1 :(得分：0)

训练数据不足。根据{{3}}，您需要：

一个小时的录音，用于单个扬声器的命令和控制

录制200个扬声器的5小时，以控制和控制许多扬声器

单人听写10个小时的录音

200个扬声器的录音长达50小时，满足许多讲话者的口述

您可以从tutorial

获取越南语数据