运行MPI程序时RSH连接被拒绝

时间:2011-08-19 16:15:58

标签: shell unix mpi bsd rsh

我正在尝试在8台机器上运行MPI程序,但是我收到了错误

connect to address 127.0.0.1 port 544: Connection refused
Trying krb4 rsh...
connect to address 127.0.0.1 port 544: Connection refused
trying normal rsh (/usr/bin/rsh)
lagrid02: Connection refused

当我使用machinefile选项运行它时,我得到错误lagrid03: No route to host,其中lagrid03是连接到主节点的相邻节点。

我该如何纠正这个问题?

2 个答案:

答案 0 :(得分:0)

关于您的第一个错误,是否在所有机器上运行rsh?您需要配置rsh或无密码ssh(并要求您的mpi作业启动器使用ssh)才能在不同的计算机上启动作业。

第二个错误表示无法使用当前网络配置到达机器lagrid03。我猜你有/ etc / hosts条目,其中包含lagrid03的IP地址,但你没有在该网络中配置接口。有关更详细的答案,您需要发布有关网络配置的详细信息。

答案 1 :(得分:0)

问题在于身份验证,如果你进入/etc/pam.d/rsh文件并将rlogin和rsh移到顶部并使它看起来像这样,它就可以正常工作了。

/* For root login to succeed here with pam_securetty, "rsh" must be listed in /etc/securetty.*/

auth required pam_nologin.so

auth required pam_securetty.so

auth required pam_env.so

auth required pam_rhosts_auth.so

account include system-auth

session optional pam_keyinit.so force revoke
session include system-auth