分布式列车中的pytorch批处理规范化

时间:2018-12-10 16:08:22

标签: pytorch

想知道分布式pytorch如何处理批处理规范,当我添加批处理规范层时,pytorch引擎会使用相同的allreduce调用来同步数据跨节点吗?或批处理规范仅在本地节点上发生。

1 个答案:

答案 0 :(得分:0)

类似于DataParallel(选中第一个警告框)。它将为每个节点(或更确切地说,每个GPU)分别计算规范。它也不会同步规范的滚动估计,但最终将保留其中一个GPU的值。因此,假设示例是在整个集群中随机分布的,则BatchNorm会大致按预期运行,但由于有效样本量较小,其归一化因子的估计值方差会更高。