应用错误收集

我使用torch.distributed.launch模块对我的训练程序进行多处理。一切似乎都很好，但是我不知道为什么1-N gpu中的某些进程在GPU 0中会占用另一种内存。

如图所示，gpu4,6中的进程在gpu0中有一些东西，这两种用法大约有700 + M的内存。有时其他进程也将具有类似的行为，但并非所有其他进程在gpu0中都具有内存使用情况。

我不知道为什么会这样？由于内存不平衡，有时会因“内存不足错误”而结束训练。

我在具有8gpu的单个节点上运行程序。