mfcc特征大小如何影响recurent神经网络

时间:2017-01-10 03:31:57

标签: python machine-learning recurrent-neural-network mfcc librosa

所以我学习机器学习并想知道mfcc特征大小如何影响RNN(Recurent Neural Network)?

使用librosa我提取了mfcc,然后是delta系数,之后我得到了维数[13,sound_length]

的数组

使用python提取mfcc和delta系数的代码:(y - 声音文件数据,sr - y的长度)

mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
mfcc_delta = librosa.feature.delta(mfcc, axis=0, order=1)

理论上,如果我想用这种数据和n_mfcc = 39的数据训练网络。谁会更好,为什么? (忽略所有其他超参数)我只想知道这个参数如何影响RNN的理论。

1 个答案:

答案 0 :(得分:4)

MFCCsDCT - 缩放(非线性)光谱的Mel系数。换句话说,它们捕获Mel谱中周期性变化的幅度。在音乐分析中,这通常用于描述一段音乐的timbre。系数指数越低,频率越低(Mel谱中的周期性变化)。

简单地说:较低的指数/系数通常更重要。

JPEG图像文件格式的情况也是如此,丢弃了MP3更高的DCT系数,因为它们描述的频率通常不重要。

因此,更少的系数意味着您可以使用更小的RNN。但是,您将丢失那些较高频率中包含的信息(如上所述,这些信息通常不被认为非常重要)。这是一个收益递减的游戏:在某些时候,更多的系数只意味着更多的输入,但不一定是更好的结果。

AFAIK,在音乐信息检索(MIR)中,通常使用前13个系数。但我也看过使用前20页的论文。

在用于MIR之前,MFCC用于语音识别。

请参阅B. Logan. "Mel frequency cepstral coefficients for music modeling." In International Symposium on Music Information Retrieval (ISMIR 2000), 2000.

McFee, Brian, and Gert RG Lanckriet. "Heterogeneous Embedding for Subjective Artist Similarity." ISMIR 2009, 2009.