标签: deep-learning computer-vision
我正在使用VAE-GAN架构,该架构最初用于低分辨率图像(mnist,人脸)上,以训练分辨率更高的音频频谱图。是否有人对如何更改体系结构以实现这项工作提出建议?
我能想到的几件事-增加内核大小,层/节点数。但是训练已经很慢了。
任何想法表示赞赏!