神经网络 - 小批量梯度的方差

时间:2018-03-31 16:46:32

标签: tensorflow neural-network variance

我正在使用张量流来尝试研究局部重新参数化技巧[Kingma et al,2015]及其对梯度方差的影响。然而,我得到了奇怪的结果,我担心我可能会误解正在发生的事情。

我的理解如下:给定损失函数或下界等,可以为每个数据点计算导数矩阵,该矩阵是该损失函数相对于输出权重矩阵中每个权重的导数。图层(如果这些是我们想要检查的渐变)。对于这些权重中的任何一个,方差是根据每个数据点相对于该权重的损失函数的导数计算的。因此,如果我们从(1000,1000)权重矩阵开始,我们用(1000,1000)矩阵完成,其条目(i,j)由迷你中每个数据点的损失函数的导数的方差给出。关于重量(i,j)的批次。

此时我们可以采用矩阵中所有方差的均值来给出最终的平均方差。当人们谈论渐变的方差时,这是什么?

0 个答案:

没有答案