我正在阅读批量标准化论文(http://arxiv.org/pdf/1502.03167.pdf),我的理解是我们更换了一个图层
sgm(X*W)
图层sgm((X*N*D)*W)
,其中:
N是一个(分析性的,不可更新的)矩阵,通过特征/通道对激活X进行归一化。
D是(通过梯度下降可更新)矩阵(转换gamma * xhat + beta),我们希望解相关归一化激活X*N
并能够表示身份转换(X=X*N*D
)。
我不了解带来D的可能解相关的重要性,但为什么我们需要代表身份转换呢?
如果BN(X) = sgm((X*N*D)*W)
那么dW= (X*N*D)'*((X*N*D)*W - Y)
和dD = (X*N)'*((X*N*D)*W - Y)*W'
是正确的更新规则?