连接数字识别器与HTK

时间:2011-06-09 08:29:59

标签: signal-processing speech-recognition htk

我正在尝试使用HTK开发一个基本的连接数字识别器。此时,识别器需要仅识别0-10的数字并且与说话者有关(现在不是问题)。以下是我的认可方式:

  1. 获取用户录制的wav文件并创建MFCC。
  2. 在word文件和字典作为输入的mfcc文件上运行HVite。

    关于hmm模型培训的注意事项:

  3. 训练初始HMM模型的基本单位已从口语数字字符串中剔除。我最终得到了大约20个单位的每个数字(大约),用于制作初始模型。嵌入式训练模型通过连接基本单元(连续选择基本单元连接)来合成。以这种方式产生的句子总数约为20000.另外109个句子取自在测试阶段所说的实际单词。

    我面临的问题如下:
    1.在长度大于4的连接数字串中,我将数字插入输出的输入字符串中 例如。)输入:99102,输出:989818082
    请注意,输入中的所有数字都被正确识别,只是输出中引入了无关的数字。查看mlf文件显示与这些单词关联的似然值也类似。知道为什么会这样吗?

    我已经通过网络寻找解决方案,但没有遇到任何问题。我们非常欢迎任何帮助。

1 个答案:

答案 0 :(得分:1)

您需要设置单词插入惩罚(对于HVite -p选项) - 最可能设置为0.0(默认值)。你必须要玩这个值。从-1.0开始,更负面。