所以我正尝试以这种方式将一些音频映射到图像(频谱图)中: *获取光谱数据(512个样本)。 *使png 512 * 512 =>第i行的像素值,col j =样本j的频率j的振幅(创建图像大约需要10秒)
[频谱数据的512个样本=> 43 Hz /样本]
但是结果不是很好(我上传了其中之一:)。
我的目标是为卷积神经网络提供这些图像,但是根据我的技术,我产生了56%的精度,这一点都不好:(
请问一些建议吗?
答案 0 :(得分:0)
这看起来很像频谱图。一个建议是将x(频率)和幅度(颜色)都切换为对数刻度,它与我们的感知更好地匹配,但是我不确定这对神经网络是否有任何影响