使用MFCC的简单字检测器

时间:2015-02-17 12:55:09

标签: machine-learning speech-recognition mfcc

我正在使用Mel Frequency Cepstrum Coefficients实现一个语音识别软件。特别是系统必须识别单个指定的单词。由于音频文件我将MFCC放在一个有12行(MFCC)的矩阵中,并且列数与语音帧数一样多。我得到行的平均值,所以我得到一个只有12行的向量(第i行是所有帧的所有第i个MFCC的平均值)。我的问题是如何训练分类器来检测这个词?我有一个只有正样本的训练集,我从几个音频文件中获得的MFCC(几个同一个单词的注册)。

1 个答案:

答案 0 :(得分:1)

  

我得到行的平均值,所以我得到一个只有12行的向量(第i行是所有帧的所有第i个MFCC的平均值)。

这是一个非常糟糕的主意,因为你丢失了关于这个单词的所有信息,你需要分析整个mfcc序列,而不是它的一部分

  

我的问题是如何训练分类器来检测这个词?

简单形式将是GMM分类器,您可以在此处查看:

http://www.mathworks.com/company/newsletters/articles/developing-an-isolated-word-recognition-system-in-matlab.html

在更复杂的形式中,您需要学习更复杂的模型,如HMM。您可以从教科书中了解更多关于HMM的信息

http://www.amazon.com/Fundamentals-Speech-Recognition-Lawrence-Rabiner/dp/0130151572