我是演讲和演讲者识别问题的新手我明确了mfcc的工作方式,但据我所知(并且发现),不同单词之间的系数会有所不同。我的问题:还有其他任何与文本无关的特征提取方法吗?如果是这样,请参考他们。 任何提示都会非常有用。 提前谢谢。
答案 0 :(得分:0)
文本无关的含义尚不清楚。 MFCC(和任何其他)特征是实系数的矢量。类似的音频帧(就人类感知而言)可能会给你相似的系数,但它们也可能没有。如果我们谈论语音识别,那么背景噪声和个别语音特征可以大大改变系数。这就是为什么使用诸如GMM或DNN的分类器来确定给定特定MFCC的语音单元的原因。如果您对其他特征提取算法感兴趣,可以阅读有关LPC和PLP特征的信息。