在ImageNet数据集上训练AlexNet模型时,随着我增加GPU数量,我正在增加批处理大小。当我收到OOM错误时,它可以正常工作到4096。我首先在4个GPU上批量为1024,然后在8个GPU上批量为2048。但是,当我在16个GPU上尝试4096时,我得到了OOM。理想情况下,这不应发生,因为在数据并行性中,每个GPU的样本保持不变。我正在使用ChainerMN进行培训。
答案 0 :(得分:0)
终于弄清楚了。当您增加GPU数量时,请勿增加批处理大小。如果将批量大小设置为32,则每个GPU的批量大小将为32。