如何在识别过程中更改未识别语音信号的长度?

时间:2015-12-18 14:06:53

标签: signal-processing speech-recognition

如几本书所述,识别孤立词语的过程包括以下内容:

  1. 对于给定的一组信号(模板),确定要素的向量 每个模板 - 矩阵M×N,其中M是数字 功能(MFCC,ZCR,...)和N是帧数。
  2. 使用某些算法训练模板,例如ANN,HMM,GMM,SVM。
  3. 通过训练有素的模型识别测试信号。
  4. 由于语音信号具有不同的持续时间,因此它们的长度通过动态时间扭曲(DTW)技术对齐,因此所有模板的N都相同。它可以在培训期间完成。

    我的问题是:如何改变测试信号的长度?我不能在它上面使用DTW,因为我不知道它属于哪个类。我应该使用“时间拉伸”算法,保留音高,如果我应该,这将如何影响识别准确度?

1 个答案:

答案 0 :(得分:0)

你可以得到一个等效的MxN特征向量,用于"时间延长"信号通过提取特征与N帧在时间上更紧密地隔开或更远。