神经网络中的批量归一化。为什么表示身份变换很重要

时间:2016-06-15 15:26:19

标签: machine-learning neural-network normalization

我正在阅读批量标准化论文(http://arxiv.org/pdf/1502.03167.pdf),我的理解是我们更换了一个图层 sgm(X*W)图层sgm((X*N*D)*W),其中:

  • N是一个(分析性的,不可更新的)矩阵,通过特征/通道对激活X进行归一化。

  • D是(通过梯度下降可更新)矩阵(转换gamma * xhat + beta),我们希望解相关归一化激活X*N并能够表示身份转换(X=X*N*D )。

我不了解带来D的可能解相关的重要性,但为什么我们需要代表身份转换呢?

如果BN(X) = sgm((X*N*D)*W)那么dW= (X*N*D)'*((X*N*D)*W - Y)dD = (X*N)'*((X*N*D)*W - Y)*W'是正确的更新规则?

0 个答案:

没有答案