MFCC的价值是什么?

时间:2017-06-04 15:25:37

标签: neural-network speech-recognition mfcc

所以我知道什么是MFCC(Mel频率倒谱系数)。但我需要了解每个值是什么......它是某种声音频率值还是什么?

enter image description here

我们假设我们有这种矩阵。所以每一行代表一帧的系数,但这些数字是多少?它可能是最高频率还是什么?

1 个答案:

答案 0 :(得分:0)

倒谱通常是通过计算语音帧的(对称)对数功率谱的离散余弦变换得到的;这里,对数功率谱[曲线]被视为信号(https://en.wikipedia.org/wiki/Mel-frequency_cepstrum)。因此,倒频谱系数是序列/曲线(代表对数功率谱)和不同频率的余弦波之间相似性的度量。倒谱系数捕获该序列的值变化的速率。

第一个倒谱系数是对数功率谱与[周期]余弦波的点积,其中一个周期从频域的原点(f = 0)开始,以f = 2 * Pi弧度结束(或等效地,采样频率)。举例说明:元音的对数功率谱在低频区域(接近f = 0)具有高能量,在高频区域(接近f = Pi)具有低能量。换句话说,在[0,Pi]范围内的对数功率谱曲线的斜率在元音的情况下具有负斜率。由于对数功率谱的这种变化类似于上述余弦波的变化,因此元音语音帧的第一倒谱系数将具有正值。相比之下,诸如/ s /之类的清音摩擦音的倒谱[1]将具有负值,因为其对数功率谱由于低频时的低能量和高频时的高能量以及低频时的显着能量而具有正斜率。由于发声。

类似地,如果在f = Pi / 2处的对数功率谱中存在主要谷,则倒谱[2]将为正。浊音摩擦音的对数功率谱(例如:/ z /)将接近这样的描述,因为由于声音的摩擦性而在高频处存在显着的能量。当然,倒谱[0]是对数功率谱值的平均值;它捕获信号的音量/响度。