signal-processing - MFCC在语音识别中的应用

MFCC在语音识别中的应用

时间：2013-11-17 06:38:56

标签： signal-processing fft speech-recognition voice-recognition mfcc

我上周花了整整一个时间来搜索MFCC和相关问题。现在，我可以从二维矢量中的.wav文件中获得MFCC特征，coff [56] [12]，让我们说。 12是我想要提取的系数的数量，56是帧数。根据我读过的几个文件，我们可以使用12个以上的系数识别语音（特别是，我想识别单词“one”，“two”......到“ten”）。但是现在我得到了56个12个棺材，所以我应该使用56个框架中的哪一个？

如果我出错了，请帮助我!!!

1 个答案:

答案 0 :(得分：9)

您正在跳过一些关键步骤。让我简要解释一下它应该如何运作。语音数据最初是离散信号。你把它切成了一个叫做“框架”的小块，每块都希望只包含一个电话。帧通常重叠，以免丢失任何重要信息。然后你提取特征 - MFCC并使用隐藏Makov模型搜索包含许多帧的最可能的单词。此时你还需要一个单词发音词典和声学模型。在下一个级别，您使用语言模型来描述可以构造的单词的句子，并获得最终的假设。这是非常抽象的描述，因此需要在更近的范围内审查每个解码步骤。