应用错误收集

在相同的硬件/软件环境中，使用相同的网络和解算器，只需在命令行中有所不同。

虽然命令行是：

caffe-master/build/tools/caffe train --solver=solver_base.prototxt --gpu=6

每100个人约50秒。

虽然命令是：

caffe-master/build/tools/caffe train --solver=solver_base.prototxt --gpu=4,5,6,7

每100个人需要大约48秒。

与往常一样，由于复制等成本，多gpu培训应比单gpu花费更多时间。所以有人可以告诉我为什么。非常感谢！

ENV：

2 * Intel(R) Xeon(R) CPU E5-2699 v4 @ 2.20GHz
8 * Nvidia Tesla V100 PCIE 16GB
Caffe 1.0.0 / use_cudnn on
Cuda 9.0.176
Cudnn 6.0.21