我大约有20台服务器,我使用mpi在服务器之间分配任务,所有服务器都具有相同版本的OS(ubuntu 17.10),并且所有软件包都安装了相同的脚本(当然,我仍然不能保证所有服务器都相同)
问题是:
我的某些服务器无法一起运行。 mpi打印以下输出。我在Google周围搜索,不知道如何调试此问题。
有人说这是由于我的软件包版本不同,服务器上的软件不同而引起的,但是没有说明如何检查哪个软件包。
任何建议都会很有帮助。
ORTE无法可靠地启动一个或多个守护程序。这通常是 造成原因:
在一个或多个节点上找不到所需的库和/或二进制文件。请检查您的PATH和LD_LIBRARY_PATH设置,或者 使用--enable-orterun-prefix-default-default默认配置OMPI
缺乏在一个或多个指定节点上执行的权限。请验证您的分配和权限。
- 需要静态时(例如在Cray上)使用动态库的
无法将启动文件写入/ tmp(--tmpdir / orte_tmpdir_base)。请检查您的系统管理员以 确定要使用的正确位置。
编译。请检查您的配置cmd行和 考虑为您使用contrib / platform定义之一 系统类型。
由于缺少公共网络接口和/或在它们之间找不到路由,因此无法创建回mpirun的连接。 请检查网络连接(包括防火墙和网络
路由要求)。
-------------------------------------------------- --------------------------- ORTE不知道如何将消息路由到指定的守护程序 位于指示的节点上:
我的节点:roo-25目标节点:192.168.0.38
这通常是内部编程错误,应报告 给开发商。同时,解决方法可能是设置MCA 在命令行上或在您的环境中,param routed = direct。我们 对这个问题表示歉意。