应用错误收集

我通常使用深度卷积自动编码器生成图像，它在许多情况下都能很好地工作。但是最近我使用相同的方法来生成语音（频谱图，包括FFT输出），它根本不起作用。

我的语音数据集非常简单，它包含大约13000个1秒音频，是从零到九的语音编号（类似于图像中的mnist）。

我使用排序时间FFT将原始音频转换为固定大小的频谱图（128 x 128），而我的卷积网络在https://arxiv.org/abs/1802.04208中具有相同的结构。

损失函数定义为生成的输出和实际数据之间的均方误差。

recon_loss=tf.reduce_mean(tf.square(decoder_samples-input_placeholder))

即使我训练了500次世代，重建的损失也从未减少。

但是相同的结构在许多图像数据集中都能很好地工作

那么声谱图比Image复杂吗，有没有适合这种数据的模型？

谢谢