人们在处理机器学习任务(如音乐分类)中的长音频片段(2分钟-5分钟,44.1khz)时会做些什么?
除了缩减采样之外是否有任何方法可以帮助减少音频数据的维数?
答案 0 :(得分:2)
通常,您要提取频谱图或MFCC等频率特征,然后对它们进行分类。它们的值低于原始音频,因此更容易分析。
你可以在这里找到一些频谱图和MFCC的可视化(与语音有关,但与音阶有关):
https://www.kaggle.com/davids1992/speech-visualization-and-exploration
请注意,汇总会降低CNN中数据的维度。
所以找到光谱分析。你很少使用原始波,虽然它们也开始工作,如WaveNet:
https://deepmind.com/blog/wavenet-generative-model-raw-audio/