应用错误收集

使用MFCC的简单字检测器

时间：2015-02-17 12:55:09

标签： machine-learning speech-recognition mfcc

我正在使用Mel Frequency Cepstrum Coefficients实现一个语音识别软件。特别是系统必须识别单个指定的单词。由于音频文件我将MFCC放在一个有12行（MFCC）的矩阵中，并且列数与语音帧数一样多。我得到行的平均值，所以我得到一个只有12行的向量（第i行是所有帧的所有第i个MFCC的平均值）。我的问题是如何训练分类器来检测这个词？我有一个只有正样本的训练集，我从几个音频文件中获得的MFCC（几个同一个单词的注册）。

1 个答案:

答案 0 :(得分：1)

我得到行的平均值，所以我得到一个只有12行的向量（第i行是所有帧的所有第i个MFCC的平均值）。

这是一个非常糟糕的主意，因为你丢失了关于这个单词的所有信息，你需要分析整个mfcc序列，而不是它的一部分

我的问题是如何训练分类器来检测这个词？

简单形式将是GMM分类器，您可以在此处查看：

http://www.mathworks.com/company/newsletters/articles/developing-an-isolated-word-recognition-system-in-matlab.html

在更复杂的形式中，您需要学习更复杂的模型，如HMM。您可以从教科书中了解更多关于HMM的信息

http://www.amazon.com/Fundamentals-Speech-Recognition-Lawrence-Rabiner/dp/0130151572