我通常使用深度卷积自动编码器生成图像,它在许多情况下都能很好地工作。但是最近我使用相同的方法来生成语音(频谱图,包括FFT输出),它根本不起作用。
我的语音数据集非常简单,它包含大约13000个1秒音频,是从零到九的语音编号(类似于图像中的mnist)。
我使用排序时间FFT将原始音频转换为固定大小的频谱图(128 x 128),而我的卷积网络在https://arxiv.org/abs/1802.04208中具有相同的结构。
损失函数定义为生成的输出和实际数据之间的均方误差。
recon_loss=tf.reduce_mean(tf.square(decoder_samples-input_placeholder))
即使我训练了500次世代,重建的损失也从未减少。
但是相同的结构在许多图像数据集中都能很好地工作
那么声谱图比Image复杂吗,有没有适合这种数据的模型?
谢谢