标签: memory deep-learning multiprocessing pytorch
我使用torch.distributed.launch模块对我的训练程序进行多处理。一切似乎都很好,但是我不知道为什么1-N gpu中的某些进程在GPU 0中会占用另一种内存。
我不知道为什么会这样?由于内存不平衡,有时会因“内存不足错误”而结束训练。
我在具有8gpu的单个节点上运行程序。