标签: voice-recognition mfcc
我有一个语音数据,长度为1.85秒,然后我使用MFCC(来自James Lyson的libraby)提取其功能。它返回184 x 13特征。我正在使用10毫秒的帧步长,25毫秒的帧大小以及DCT的13个系数。如何返回184?我仍然不明白,因为最后一帧的长度不是25毫秒。是否有任何公式可以解释它如何返回184?预先谢谢你。
答案 0 :(得分:0)
有一幅图片可以解释您的情况,基本上最后一个窗口比以前的窗口占用更多的空间。
如果您有184个窗口,则您覆盖的区域为183 * 10 + 25或大约1855 ms。