我的批量大小是512,我有8个GPU
我应该定义: rescale_grad = 1. / 512 或 rescale_grad = 1. /(8 * 512)
谢谢!
答案 0 :(得分:0)
批量大小与计算机绑定,而不是与GPU绑定。引用(来自here):
工作负载分区
默认情况下,MXNet在可用的数据中均匀分区数据 图形处理器。假设批量大小为b并假设有k个GPU,则为一个 迭代每个GPU将在b / k示例中向前和向后执行。 然后在更新模型之前,在所有GPU上对梯度求和。
在您的情况下,b
为512.因此您应该使用rescale_grad = 1. / 512