使用tensorflow slim运行horovod时,参数不会在机器之间复制

时间:2018-07-11 13:14:20

标签: tensorflow mpi distributed-computing openmpi

我正在尝试在3台机器的12个GPU(每个4个GPU)上使用带tf slim的horovod。 然后我使用iperf3来检查带宽,训练时看到的带宽成本几乎为0。

这是我正在运行的命令:

mpirun -np 12 -H ip1:4,ip2:4,ip3:4 -bind-to none -map-by slot -x NCCL_DEBUG=DEBUG -x LD_LIBRARY_PATH -x PATH -mca pml ob1 -mca btl ^openib python train_distribute_horovod.py

我在代码中设置了num_clones = 1,num_replicas = 1,num_ps_tasks = 0,task = 0。

似乎参数不会在GPU之间复制。这是日志:

  

INFO:tensorflow:在步骤7363的记录摘要。

     

INFO:tensorflow:在步骤7363的记录摘要。

     

INFO:tensorflow:在步骤2433中的记录摘要。

     

INFO:tensorflow:在步骤2433中的记录摘要。

     

INFO:tensorflow:在步骤2433中的记录摘要。

     

INFO:tensorflow:在步骤7363的记录摘要。

     

INFO:tensorflow:在步骤52730的记录摘要。

     

INFO:tensorflow:在步骤7363的记录摘要。

     

INFO:tensorflow:在步骤52730的记录摘要。

0 个答案:

没有答案