我在tensorflow教程中运行CIFAR 10模型来训练多个GPU。
的GPU: NVIDIA 8 * M40
配置: Tensorflow 0.8.0 ,CUDA 7.5,cuDNN 4
培训绩效的结果不可预测。图的模式看起来像阿姆达尔定律。
the chart of scaling performance across multi GPUs
这是正常的吗?如果是,你认为主要原因是什么?
答案 0 :(得分:0)
尝试尽可能高地获得GPU利用率(> 80%)。很可能磁盘上的数据传输速度不够快,因此GPU大部分时间都处于空闲状态。