MFCC系数的数量如何取决于文件的长度

时间:2018-07-12 06:02:26

标签: voice-recognition mfcc

我有一个语音数据,长度为1.85秒,然后我使用MFCC(来自James Lyson的libraby)提取其功能。它返回184 x 13特征。我正在使用10毫秒的帧步长,25毫秒的帧大小以及DCT的13个系数。如何返回184?我仍然不明白,因为最后一帧的长度不是25毫秒。是否有任何公式可以解释它如何返回184?预先谢谢你。

1 个答案:

答案 0 :(得分:0)

有一幅图片可以解释您的情况,基本上最后一个窗口比以前的窗口占用更多的空间。

如果您有184个窗口,则您覆盖的区域为183 * 10 + 25或大约1855 ms。

enter image description here