应用错误收集

数据并行大小的全局批处理增加会导致OOM错误

时间：2019-10-11 19:47:34

标签： deep-learning chainer

在ImageNet数据集上训练AlexNet模型时，随着我增加GPU数量，我正在增加批处理大小。当我收到OOM错误时，它可以正常工作到4096。我首先在4个GPU上批量为1024，然后在8个GPU上批量为2048。但是，当我在16个GPU上尝试4096时，我得到了OOM。理想情况下，这不应发生，因为在数据并行性中，每个GPU的样本保持不变。我正在使用ChainerMN进行培训。

1 个答案:

答案 0 :(得分：0)

终于弄清楚了。当您增加GPU数量时，请勿增加批处理大小。如果将批量大小设置为32，则每个GPU的批量大小将为32。

Image.asset导致应用程序大小增加
OOM错误导致许多小图像（未缩放），大堆大小
字体大小增加会导致ul菜单错位
root.after导致全局错误
Java 8，在流中使用.parallel会导致OOM错误
mongodb数据大小增加了约6倍
数据大小增加时，Elasticsearch执行缓慢
Spring Batch OOM错误
dask.read_parquet导致OOM错误
数据并行大小的全局批处理增加会导致OOM错误

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？