语音(频谱图)比图像更具复杂性吗?

时间:2018-12-29 00:55:13

标签: python tensorflow deep-learning

我通常使用深度卷积自动编码器生成图像,它在许多情况下都能很好地工作。但是最近我使用相同的方法来生成语音(频谱图,包括FFT输出),它根本不起作用。

我的语音数据集非常简单,它包含大约13000个1秒音频,是从零到九的语音编号(类似于图像中的mnist)。

我使用排序时间FFT将原始音频转换为固定大小的频谱图(128 x 128),而我的卷积网络在https://arxiv.org/abs/1802.04208中具有相同的结构。

损失函数定义为生成的输出和实际数据之间的均方误差。

recon_loss=tf.reduce_mean(tf.square(decoder_samples-input_placeholder))

即使我训练了500次世代,重建的损失也从未减少。

但是相同的结构在许多图像数据集中都能很好地工作

那么声谱图比Image复杂吗,有没有适合这种数据的模型?

谢谢

0 个答案:

没有答案