' rescale_grad'的正确值是什么?在多GPU机器的情况下?

时间:2017-10-03 19:51:30

标签: deep-learning keras mxnet

我的批量大小是512,我有8个GPU

我应该定义: rescale_grad = 1. / 512 rescale_grad = 1. /(8 * 512)

谢谢!

1 个答案:

答案 0 :(得分:0)

批量大小与计算机绑定,而不是与GPU绑定。引用(来自here):

  

工作负载分区

     

默认情况下,MXNet在可用的数据中均匀分区数据   图形处理器。假设批量大小为b并假设有k个GPU,则为一个   迭代每个GPU将在b / k示例中向前和向后执行。   然后在更新模型之前,在所有GPU上对梯度求和。

在您的情况下,b为512.因此您应该使用rescale_grad = 1. / 512