我使用的群集每个节点有4个NVIDIA的GPU(P100)。我有一个需要运行的张量流代码。这需要几个小时才能完成,我尝试使用节点上可用的所有4个GPU。但是如果我使用所有4个GPU而不是仅使用1GPU它看起来运行速度较慢而且我不确定为什么...确定我应该使用多少GPU来解决我的问题的最佳策略是什么?
答案 0 :(得分:0)
如果您逐层分发,可能没有为多gpu培训优化构建代码。一般来说,训练速度应该与GPU的数量大致呈线性关系。
请参阅this answer了解您的网络适应多GPU培训的选项。