标签: tensorflow
我正在使用Tensorflow训练非常大的模型,并将模型拆分到多个GPU上。为了简单起见,假设是100个卷积层。目前,我有4个GPU:位于GPU0上的1-25层,位于GPU1上的26-50层,依此类推。我在所有4个GPU上的平均GPU利用率大约只有33%。我认为这是由于GPU必须等待以前的GPU在其层上完成计算。
提高GPU利用率并加快培训速度的最佳方法是什么?