配置MPI节点进行通信的问题

时间:2011-08-22 19:15:16

标签: networking ssh mpi

我在目录/ scratch / sharatds(安装在NFS上)的机器上安装了mpich1和UPC。

然而,当我尝试初始运行时,它曾经在一台机器上运行良好(lagrid02)。

当我尝试在循环中包含其他机器(lagrid02-09)时,它会引发错误。

rm_3521:  p4_error: rm_start: net_conn_to_listener failed: 36394
p0_30647:  p4_error: Child process exited while making connection to remote process on lagrid03: 0
p0_30647: (38.617188) net_send: could not write to fd=4, errno = 32

如果你有一个想法,可能会出现什么问题,你能否建议我采取哪些措施让它发挥作用?

1 个答案:

答案 0 :(得分:1)

这是一个系统管理员问题,而不是编程问题。

首先 - mpich_1_?真? Mpich1自2005年以来未更新;我强烈建议改用mpich2。你不会发现很多人愿意为mpich1问题提供帮助或支持。

对于跨节点的特定错误消息,有several reasons为什么MPI可能在节点之间进行通信时遇到问题:您是否有无密码的ssh设置,因此您可以从lagrid02 sshsh到lagrid03?各种机器上都有防火墙吗?>