我正在通过Openmpi后端运行PyTorch进行通信,但是在尝试在多节点群集上部署代码时遇到麻烦。我的代码停留了一段时间,然后出现的错误是:
--------------------------------------------------------------------------
WARNING: Open MPI failed to TCP connect to a peer MPI process. This
should not happen.
Your Open MPI job may now hang or fail.
Local host: g2-nasp
PID: 29103
Message: connect() to 172.17.0.1:1027 failed
Error: Operation now in progress (115)
--------------------------------------------------------------------------
仅当我尝试使用pytorch执行任何类型的发送/接收时,才会发生这种情况。奇怪的是,它成功连接到远程服务器,并在其中部署了我所需的进程。
我还可以接收从远程计算机打印到控制台的调试消息。当我使用分布式标准API isend / ireceive函数时,会发生唯一的问题。另外请注意,上述错误的消息行中指定的IP地址是外来的。
有什么想法吗?