我在目录/ scratch / sharatds(安装在NFS上)的机器上安装了mpich1和UPC。
然而,当我尝试初始运行时,它曾经在一台机器上运行良好(lagrid02)。
当我尝试在循环中包含其他机器(lagrid02-09)时,它会引发错误。
rm_3521: p4_error: rm_start: net_conn_to_listener failed: 36394
p0_30647: p4_error: Child process exited while making connection to remote process on lagrid03: 0
p0_30647: (38.617188) net_send: could not write to fd=4, errno = 32
如果你有一个想法,可能会出现什么问题,你能否建议我采取哪些措施让它发挥作用?
答案 0 :(得分:1)
这是一个系统管理员问题,而不是编程问题。
首先 - mpich_1_?真? Mpich1自2005年以来未更新;我强烈建议改用mpich2。你不会发现很多人愿意为mpich1问题提供帮助或支持。
对于跨节点的特定错误消息,有several reasons为什么MPI可能在节点之间进行通信时遇到问题:您是否有无密码的ssh设置,因此您可以从lagrid02 sshsh到lagrid03?各种机器上都有防火墙吗?>