标签: gradient backpropagation gradient-descent batch-normalization mini-batch
如果我必须使用最小的n大小的批次(以theta作为我的网络的权重和偏差)来计算骨密度梯度下降,则
new_theta = old_theta-learning_rate *表示theta偏导数的批次。
但对于批处理归一化层,则为Gamma和Beta
new_gamma / beta = old_gamma / beta-学习率* gamma / beta的偏导数?整个小批次都没有意思?
这正确吗?