推理阶段的批量规范化精确地做的是使用总体均值和估计的总体方差对每一层进行标准化
但似乎每个张量流实现(包括this one和官方张量流implementation)都使用(指数)移动平均值和方差。
请原谅我,但我不明白为什么。是因为使用移动平均线对性能更好吗?或者为了纯粹的计算速度呢?
答案 0 :(得分:0)
样本均值的精确更新规则只是一个指数平均,其步长等于反样本大小。因此,如果您知道样本大小,则可以将衰减因子设置为1/n
,其中n
是样本大小。然而,如果选择非常接近1,则衰减因子通常无关紧要,因为具有这种衰减率的指数平均值仍然提供非常接近的均值和方差近似值,尤其是在大型数据集上。