Pytorch,多处理训练,GPU0具有更多的内存使用量

时间:2019-03-17 07:32:59

标签: memory deep-learning multiprocessing pytorch

我使用torch.distributed.launch模块对我的训练程序进行多处理。一切似乎都很好,但是我不知道为什么1-N gpu中的某些进程在GPU 0中会占用另一种内存。

enter image description here

如图所示,gpu4,6中的进程在gpu0中有一些东西,这两种用法大约有700 + M的内存。有时其他进程也将具有类似的行为,但并非所有其他进程在gpu0中都具有内存使用情况。

我不知道为什么会这样?由于内存不平衡,有时会因“内存不足错误”而结束训练。

我在具有8gpu的单个节点上运行程序。

0 个答案:

没有答案