降低MFCC输出

时间:2018-11-15 04:23:53

标签: python mfcc audio-analysis

我正在尝试使用python库分析歌曲音频,输出是一个numpy数组,该数组的大小非常大,因为MFCC是针对音频的每一帧计算的。当我将此输出写入文件时,每首歌曲的输出约为3-4MB。有没有一种方法可以将N帧信息减少为单行特征?

click here]([![MFCC outut

1 个答案:

答案 0 :(得分:0)

一种常见的做法是将连续的帧分组到序列窗口中,在每个纹理窗口上计算聚合统计信息,然后使用聚合统计信息再次进行总结。

按输入功能(在您的情况下为MFCC频段)计算统计信息。 统计功能示例为平均值,标准偏差,最小值,最大值。 纹理大小可以在1至60秒之间。

请参见Low-level features and timbre, Juan Pablo Bello, MPATE-GE 2623 Music Information Retrieval