带有OpenMPI后端的Pytorch

时间:2019-05-08 16:53:51

标签: mpi pytorch openmpi

我正在通过Openmpi后端运行PyTorch进行通信,但是在尝试在多节点群集上部署代码时遇到麻烦。我的代码停留了一段时间,然后出现的错误是:

--------------------------------------------------------------------------
WARNING: Open MPI failed to TCP connect to a peer MPI process.  This
should not happen.

Your Open MPI job may now hang or fail.

  Local host: g2-nasp
  PID:        29103
  Message:    connect() to 172.17.0.1:1027 failed
  Error:      Operation now in progress (115)
--------------------------------------------------------------------------

仅当我尝试使用pytorch执行任何类型的发送/接收时,才会发生这种情况。奇怪的是,它成功连接到远程服务器,并在其中部署了我所需的进程。

我还可以接收从远程计算机打印到控制台的调试消息。当我使用分布式标准API isend / ireceive函数时,会发生唯一的问题。另外请注意,上述错误的消息行中指定的IP地址是外来的。

有什么想法吗?

0 个答案:

没有答案