我正在使用Mel Frequency Cepstrum Coefficients实现一个语音识别软件。特别是系统必须识别单个指定的单词。由于音频文件我将MFCC放在一个有12行(MFCC)的矩阵中,并且列数与语音帧数一样多。我得到行的平均值,所以我得到一个只有12行的向量(第i行是所有帧的所有第i个MFCC的平均值)。我的问题是如何训练分类器来检测这个词?我有一个只有正样本的训练集,我从几个音频文件中获得的MFCC(几个同一个单词的注册)。
答案 0 :(得分:1)
我得到行的平均值,所以我得到一个只有12行的向量(第i行是所有帧的所有第i个MFCC的平均值)。
这是一个非常糟糕的主意,因为你丢失了关于这个单词的所有信息,你需要分析整个mfcc序列,而不是它的一部分
我的问题是如何训练分类器来检测这个词?
简单形式将是GMM分类器,您可以在此处查看:
在更复杂的形式中,您需要学习更复杂的模型,如HMM。您可以从教科书中了解更多关于HMM的信息
http://www.amazon.com/Fundamentals-Speech-Recognition-Lawrence-Rabiner/dp/0130151572