如何在机器学习中处理长音频片段?

时间:2017-11-27 08:46:11

标签: audio machine-learning deep-learning

人们在处理机器学习任务(如音乐分类)中的长音频片段(2分钟-5分钟,44.1khz)时会做些什么?

除了缩减采样之外是否有任何方法可以帮助减少音频数据的维数?

1 个答案:

答案 0 :(得分:2)

通常,您要提取频谱图或MFCC等频率特征,然后对它们进行分类。它们的值低于原始音频,因此更容易分析。

你可以在这里找到一些频谱图和MFCC的可视化(与语音有关,但与音阶有关):

https://www.kaggle.com/davids1992/speech-visualization-and-exploration

请注意,汇总会降低CNN中数据的维度。

所以找到光谱分析。你很少使用原始波,虽然它们也开始工作,如WaveNet:

https://deepmind.com/blog/wavenet-generative-model-raw-audio/