应用错误收集

批量归一化层的梯度下降

时间：2019-02-01 16:23:57

标签： gradient backpropagation gradient-descent batch-normalization mini-batch

如果我必须使用最小的n大小的批次（以theta作为我的网络的权重和偏差）来计算骨密度梯度下降，则

new_theta = old_theta-learning_rate *表示theta偏导数的批次。

但对于批处理归一化层，则为Gamma和Beta

new_gamma / beta = old_gamma / beta-学习率* gamma / beta的偏导数？整个小批次都没有意思？

这正确吗？

0 个答案:

没有答案