在变分自动编码器中,目标函数有两个项,一个使输入和输出x相同,另一个使正则数,q(z)和p(z)靠近KL发散。 我不明白为什么我们可以假设p(z)〜正态高斯具有0均值和1方差?
为什么不说......差异小于1?所以更多的信息与隐藏层中较窄的高斯人凝聚在一起?
谢谢
答案 0 :(得分:0)
如果网络具有足够强大的功能来合成复杂的功能,则从理论上讲,先验网络的形状应基本没有影响。在您像往常一样采用高斯方差的特定情况下,网络可以通过缩放后验分布Q(z | X)的相关统计量,并在下一层适当地重新缩放采样,轻松地适应不同的方差。网络。结果网络将具有与前一个网络完全相同的行为(和丢失)。因此,先验高斯方差仅具有固定潜在空间的度量单位的作用。 Doersh在Variational Autoencoders的出色教程中对此主题进行了讨论(第2.4.3节);您可能也有兴趣看看我的blog。