MFCC在语音识别中的应用

时间:2013-11-17 06:38:56

标签: signal-processing fft speech-recognition voice-recognition mfcc

我上周花了整整一个时间来搜索MFCC和相关问题。现在,我可以从二维矢量中的.wav文件中获得MFCC特征,coff [56] [12],让我们说。 12是我想要提取的系数的数量,56是帧数。 根据我读过的几个文件,我们可以使用12个以上的系数识别语音(特别是,我想识别单词“one”,“two”......到“ten”)。但是现在我得到了56个12个棺材,所以我应该使用56个框架中的哪一个?

如果我出错了,请帮助我!!!

1 个答案:

答案 0 :(得分:9)

您正在跳过一些关键步骤。让我简要解释一下它应该如何运作。语音数据最初是离散信号。你把它切成了一个叫做“框架”的小块,每块都希望只包含一个电话。帧通常重叠,以免丢失任何重要信息。然后你提取特征 - MFCC并使用隐藏Makov模型搜索包含许多帧的最可能的单词。此时你还需要一个单词发音词典和声学模型。在下一个级别,您使用语言模型来描述可以构造的单词的句子,并获得最终的假设。这是非常抽象的描述,因此需要在更近的范围内审查每个解码步骤。

相关问题