我目前正在开发一个语音识别项目,并且我试图选择最有意义的功能。 大多数相关论文建议使用零交叉率,F0和MFCC特征因此我使用它们。 我的问题是,持续时间为00:03的训练样本有268个特征。考虑到我正在进行一个多级分类项目,每个级别的50多个样本培训,包括所有MFCC功能,可能会受到维度诅咒或“降低重要性”的影响。其他功能。 所以我的问题是,如果我不包括所有MFCC功能,你能否提出替代方案?
答案 0 :(得分:2)
你不应该使用f0和零交叉,它们太不稳定了。您可以简单地增加训练数据并使用mfccs,他们有很好的代表能力。但请记住将它们归一化。
答案 1 :(得分:2)
获得每帧的MFCC系数后,您可以将MFCC特征表示为以下组合:
1) First 12 MFCC 2) 1 energy feature 3) 12 delta MFCC feature 4) 12 double-delta MFCC feature 5) 1 delta energy feature 6) 1 double delta energy feature
此处描述了delta MFCC特征的集中 link.
39维MFCC功能已输入HMM或 Recurrent Neural Network。
答案 2 :(得分:1)
我想说的是,MFCC不是必需的。你可以使用MFCC,你可以使用@Mahendra Thapa提到的能量,delta和delta-delta特征,但它不是“必需的”。一些研究人员使用40个CC,有些研究人员将DCT从MFCC计算中删除,使其成为MFSC(光谱不是倒谱)。一些添加额外的功能。有些用得少。对维度诅咒的敏感程度取决于你的分类器,不是吗?有些人最近甚至声称在语音识别的“圣杯”方面取得了进展,使用原始信号进行培训,使用深度学习,学习最佳功能而不是手工制作。
答案 3 :(得分:0)