标签: python-3.x tensorflow gpu cluster-computing
我正在研究 CIFAR10 模型,并使用“ cifar10_multi_gpu_train.py ”代码进行培训。当我在具有多个GPU(2个GPU)的SINGLE系统中运行此代码时,则我没有遇到任何错误而不是内存问题(因为我的数据集很大并且将批处理大小设置为128)。 但是当我在具有多个(大约12个)系统且每个系统具有1个GPU的CLUSTER中运行相同的代码时,就会出现问题。我很好奇我如何更改“ cifar10_multi_gpu_train.py ”代码,这样我就可以利用系统的所有GPU?