鉴于22 mins (1320 secs)
的音频文件,Librosa通过提取MFCC功能
data = librosa.feature.mfcc(y=None, sr=22050, S=None, n_mfcc=20, **kwargs)
data.shape (20,56829) 它返回20个MFCC特征为56829帧的numpy数组。
我的问题是如何计算56829.有没有计算来实现这个框架?每帧的窗口大小是多少?
答案 0 :(得分:3)
您可以指定跳跃长度
mfcc = librosa.feature.mfcc(y=y, sr=sr, hop_length=hop_length, n_mfcc=13)
librosa使用居中的帧,因此第k帧以样本k * hop_length
为中心我认为默认跳数值为512,您的数据(1320 * 22050)/ 56829 = 512,16