在linux集群中运行并行作业 - mpich错误

时间:2013-01-30 12:04:37

标签: cluster-computing ubuntu-12.04 mpich

首先,我想说我不确定这是一个提出这个问题的合适地方,我想我们但是......如果它更适合另一个stackexchange网站,请告诉我。

三个月前,我负责一个拥有六台计算机(Suse Linux 9.2)的集群,在预测模式下运行气象模型。最近由于电源切断,其中一个节点崩溃了。安装Lubuntu 12.04后(Suse 9.2磁盘不可用,只有10.2)我尝试将此计算机重新连接到群集:

  • 已安装的openssh服务器
  • 将ssh-keygen运行到ssh而不需要密码
  • 已安装的NFS支持
  • 已编辑/ etc / fstab
  • 已编辑/ etc / hosts

然后我尝试运行met模型但收到此错误消息:

rm_1993: p4_error: Could not gethostbyname for host thalassa; may be invalid name : 61
p0_12316: p4_error: Child process exited while making connection to remote process on thalassa3: 0

Google搜索后,我发现了一些关于/etc/resolv.conf的问题,然后编辑了这个文件:

  

domain ceam.es dns-nameservers 192.168.1.1 nameserver 127.0.0.1

但仍会显示错误消息。我想我错过了一些东西,我不是专家系统管理员,但我必须处理。

您可以在此处找到error loghostsresolv.conf

非常感谢任何帮助或想法,我将继续在网上搜索解决方案。

提前致谢

1 个答案:

答案 0 :(得分:1)

这些消息表明您正在运行原始MPICH软件(通常称为MPICH1)。虽然您可以将它们重新组合在一起以使系统正常工作,但您确实不应该运行这样长时间不受支持的软件。

我建议升级到现代MPICH(以前称为MPICH2),v3.0.1或更高版本。安装和配置应该相当容易,尽管您运行的任何旧应用程序代码都有可能不理解现代MPICH包含的附加错误检查。

http://www.mpich.org/