我正在尝试在8台机器上运行MPI程序,但是我收到了错误
connect to address 127.0.0.1 port 544: Connection refused
Trying krb4 rsh...
connect to address 127.0.0.1 port 544: Connection refused
trying normal rsh (/usr/bin/rsh)
lagrid02: Connection refused
当我使用machinefile选项运行它时,我得到错误lagrid03: No route to host
,其中lagrid03是连接到主节点的相邻节点。
我该如何纠正这个问题?
答案 0 :(得分:0)
关于您的第一个错误,是否在所有机器上运行rsh?您需要配置rsh或无密码ssh(并要求您的mpi作业启动器使用ssh)才能在不同的计算机上启动作业。
第二个错误表示无法使用当前网络配置到达机器lagrid03。我猜你有/ etc / hosts条目,其中包含lagrid03的IP地址,但你没有在该网络中配置接口。有关更详细的答案,您需要发布有关网络配置的详细信息。
答案 1 :(得分:0)
问题在于身份验证,如果你进入/etc/pam.d/rsh
文件并将rlogin和rsh移到顶部并使它看起来像这样,它就可以正常工作了。
/* For root login to succeed here with pam_securetty, "rsh" must be listed in /etc/securetty.*/
auth required pam_nologin.so
auth required pam_securetty.so
auth required pam_env.so
auth required pam_rhosts_auth.so
account include system-auth
session optional pam_keyinit.so force revoke
session include system-auth