批量归一化层的梯度下降

时间:2019-02-01 16:23:57

标签: gradient backpropagation gradient-descent batch-normalization mini-batch

如果我必须使用最小的n大小的批次(以theta作为我的网络的权重和偏差)来计算骨密度梯度下降,则

new_theta = old_theta-learning_rate *表示theta偏导数的批次。

但对于批处理归一化层,则为Gamma和Beta

new_gamma / beta = old_gamma / beta-学习率* gamma / beta的偏导数?整个小批次都没有意思?

这正确吗?

0 个答案:

没有答案