我正在根据本文在深度卷积神经网络中实现批量标准化:http://arxiv.org/abs/1502.03167
使用以下等式进行归一化:
我选择epsilon作为数值稳定性的1e-3并且所有方差都初始化为1.0,所有均值都初始化为0.0,并且使用指数移动平均值随时间调整均值和方差。
为了帮助我理解我的网络是如何训练的,我正在绘制直方图,这些直方图表示每次预激活后输出方差的分布:
我所观察到的是,在前几个训练步骤结束时,差异会被抨击"低于接近零,并且在训练过程中,对于较高层,方差保持非常低,对于输出附近的层,方差增加到非常大的值。请注意,sqrt(1e-3)〜= 0.03表示 第一层仍然有效地接近零方差。
我无法理解所有这些意味着什么。这是批量规范化的预期行为还是看起来不对劲?