出现`failed-daemon-launch`错误后,OpenMPI mpirun挂起

时间:2019-11-21 14:10:12

标签: mpi openmpi

当多个节点出现故障并且无法通过ssh连接时,mpirun会出现以下错误并永久挂起。在这种情况下,预期的行为应以错误代码终止,但是该行为已挂起。


ORTE无法可靠地启动一个或多个守护程序。 通常是由以下原因引起的:

  • 没有找到所需的库和/或二进制文件 一个或多个节点。请检查您的PATH和LD_LIBRARY_PATH 设置,或使用--enable-orterun-prefix-by-default默认设置

  • 缺乏在一个或多个指定节点上执行的权限。 请验证您的分配和权限。

  • 无法将启动文件写入/ tmp(--tmpdir / orte_tmpdir_base)。 请与系统管理员联系,以确定要使用的正确位置。

  • 需要静态时使用动态库的
  • 编译 (例如,在Cray上)。请检查您的配置cmd行并考虑使用 您系统类型的contrib /平台定义之一。

  • 由于以下原因,无法创建回mpirun的连接 缺少公共网络接口和/或之间没有找到路由 他们。请检查网络连接(包括防火墙) 和网络路由要求)。 ———————————————————————————————————————————————— >

mpirun在后台执行任何操作吗?在这种情况下,我可以添加任何配置以使mpirun退出吗?

0 个答案:

没有答案