标签: inference multi-gpu
我在1 1080Ti对4 1080Ti中测试了CondenseNet,这是我的测试结果: 1 1080Ti
4-1080Ti
我只是将批量大小从32更改为128,数据集和模型相同。 为什么在4 1080Ti中时间是300ms /批而不是80ms。 当我将GPU的数量增加到4个时,数据量也增加了4倍。时间不应该快结束吗? 有人可以帮我吗?