如何调试:如果MPI无法在计算机上运行

时间:2019-01-11 07:04:09

标签: mpi openmpi

我大约有20台服务器,我使用mpi在服务器之间分配任务,所有服务器都具有相同版本的OS(ubuntu 17.10),并且所有软件包都安装了相同的脚本(当然,我仍然不能保证所有服务器都相同)

问题是:

我的某些服务器无法一起运行。 mpi打印以下输出。我在Google周围搜索,不知道如何调试此问题。

有人说这是由于我的软件包版本不同,服务器上的软件不同而引起的,但是没有说明如何检查哪个软件包。

任何建议都会很有帮助。

  • 用于检查可能错误的命令。
  • 在哪里可以找到相关日志
  

ORTE无法可靠地启动一个或多个守护程序。这通常是   造成原因:

     
      
  • 在一个或多个节点上找不到所需的库和/或二进制文件。请检查您的PATH和LD_LIBRARY_PATH设置,或者   使用--enable-orterun-prefix-default-default默认配置OMPI

  •   
  • 缺乏在一个或多个指定节点上执行的权限。请验证您的分配和权限。

  •   
  • 无法将启动文件写入/ tmp(--tmpdir / orte_tmpdir_base)。请检查您的系统管理员以   确定要使用的正确位置。

  •   需要静态时(例如在Cray上)使用动态库的
  • 编译。请检查您的配置cmd行和   考虑为您使用contrib / platform定义之一   系统类型。

  •   
  • 由于缺少公共网络接口和/或在它们之间找不到路由,因此无法创建回mpirun的连接。   请检查网络连接(包括防火墙和网络

         

    路由要求)。

  •   
     

-------------------------------------------------- --------------------------- ORTE不知道如何将消息路由到指定的守护程序   位于指示的节点上:

     

我的节点:roo-25目标节点:192.168.0.38

     

这通常是内部编程错误,应报告   给开发商。同时,解决方法可能是设置MCA   在命令行上或在您的环境中,param routed = direct。我们   对这个问题表示歉意。

0 个答案:

没有答案