我正在尝试使用HTK开发一个基本的连接数字识别器。此时,识别器需要仅识别0-10的数字并且与说话者有关(现在不是问题)。以下是我的认可方式:
在word文件和字典作为输入的mfcc文件上运行HVite。
关于hmm模型培训的注意事项:
训练初始HMM模型的基本单位已从口语数字字符串中剔除。我最终得到了大约20个单位的每个数字(大约),用于制作初始模型。嵌入式训练模型通过连接基本单元(连续选择基本单元连接)来合成。以这种方式产生的句子总数约为20000.另外109个句子取自在测试阶段所说的实际单词。
我面临的问题如下:
1.在长度大于4的连接数字串中,我将数字插入输出的输入字符串中
例如。)输入:99102,输出:989818082
请注意,输入中的所有数字都被正确识别,只是输出中引入了无关的数字。查看mlf文件显示与这些单词关联的似然值也类似。知道为什么会这样吗?
我已经通过网络寻找解决方案,但没有遇到任何问题。我们非常欢迎任何帮助。
答案 0 :(得分:1)
您需要设置单词插入惩罚(对于HVite -p选项) - 最可能设置为0.0(默认值)。你必须要玩这个值。从-1.0开始,更负面。