应用错误收集

我正在根据本文在深度卷积神经网络中实现批量标准化：http://arxiv.org/abs/1502.03167

使用以下等式进行归一化：

我选择epsilon作为数值稳定性的1e-3并且所有方差都初始化为1.0，所有均值都初始化为0.0，并且使用指数移动平均值随时间调整均值和方差。

为了帮助我理解我的网络是如何训练的，我正在绘制直方图，这些直方图表示每次预激活后输出方差的分布：

我所观察到的是，在前几个训练步骤结束时，差异会被抨击＆＃34;低于接近零，并且在训练过程中，对于较高层，方差保持非常低，对于输出附近的层，方差增加到非常大的值。请注意，sqrt（1e-3）〜= 0.03表示第一层仍然有效地接近零方差。

我无法理解所有这些意味着什么。这是批量规范化的预期行为还是看起来不对劲？