语音识别是否需要MFCC功能

时间:2016-08-08 15:55:23

标签: machine-learning speech-recognition feature-selection mfcc

我目前正在开发一个语音识别项目,并且我试图选择最有意义的功能。 大多数相关论文建议使用零交叉率,F0和MFCC特征因此我使用它们。 我的问题是,持续时间为00:03的训练样本有268个特征。考虑到我正在进行一个多级分类项目,每个级别的50多个样本培训,包括所有MFCC功能,可能会受到维度诅咒或“降低重要性”的影响。其他功能。 所以我的问题是,如果我不包括所有MFCC功能,你能否提出替代方案?

4 个答案:

答案 0 :(得分:2)

你不应该使用f0和零交叉,它们太不稳定了。您可以简单地增加训练数据并使用mfccs,他们有很好的代表能力。但请记住将它们归一化。

答案 1 :(得分:2)

获得每帧的MFCC系数后,您可以将MFCC特征表示为以下组合:

 1) First 12 MFCC
 2) 1 energy  feature
 3) 12 delta MFCC feature
 4) 12 double-delta MFCC feature
 5) 1 delta energy feature
 6) 1 double delta energy feature

此处描述了delta MFCC特征的集中 link.

39维MFCC功能已输入HMM Recurrent Neural Network

答案 2 :(得分:1)

我想说的是,MFCC不是必需的。你可以使用MFCC,你可以使用@Mahendra Thapa提到的能量,delta和delta-delta特征,但它不是“必需的”。一些研究人员使用40个CC,有些研究人员将DCT从MFCC计算中删除,使其成为MFSC(光谱不是倒谱)。一些添加额外的功能。有些用得少。对维度诅咒的敏感程度取决于你的分类器,不是吗?有些人最近甚至声称在语音识别的“圣杯”方面取得了进展,使用原始信号进行培训,使用深度学习,学习最佳功能而不是手工制作。

答案 3 :(得分:0)

MFCC被广泛使用,效果相对较好。