所以我学习机器学习并想知道mfcc特征大小如何影响RNN(Recurent Neural Network)?
使用librosa我提取了mfcc,然后是delta系数,之后我得到了维数[13,sound_length]
的数组使用python提取mfcc和delta系数的代码:(y - 声音文件数据,sr - y的长度)
mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
mfcc_delta = librosa.feature.delta(mfcc, axis=0, order=1)
理论上,如果我想用这种数据和n_mfcc = 39的数据训练网络。谁会更好,为什么? (忽略所有其他超参数)我只想知道这个参数如何影响RNN的理论。
答案 0 :(得分:4)
MFCCs是DCT - 缩放(非线性)光谱的Mel系数。换句话说,它们捕获Mel谱中周期性变化的幅度。在音乐分析中,这通常用于描述一段音乐的timbre。系数指数越低,频率越低(Mel谱中的周期性变化)。
简单地说:较低的指数/系数通常更重要。
JPEG图像文件格式的情况也是如此,丢弃了MP3更高的DCT系数,因为它们描述的频率通常不重要。
因此,更少的系数意味着您可以使用更小的RNN。但是,您将丢失那些较高频率中包含的信息(如上所述,这些信息通常不被认为非常重要)。这是一个收益递减的游戏:在某些时候,更多的系数只意味着更多的输入,但不一定是更好的结果。
AFAIK,在音乐信息检索(MIR)中,通常使用前13个系数。但我也看过使用前20页的论文。
在用于MIR之前,MFCC用于语音识别。