为什么:mpirun注意到15个小时的计算后,进程1在信号9(终止)上退出了?

时间:2018-06-21 11:05:39

标签: amazon-web-services openmpi

过去48个小时,我在AWS Amazon HPC Cloud Formation上遇到了这个问题。我正在使用Cfncluster构建我的HPC系统,这是我第一次遇到此错误。 最棘手的部分是,该错误在经过数小时的计算后才会发生。超过15小时,我得到的错误是:

mpirun noticed that process rank 1 with PID 20288 on node ip-172-31-17-25 exited on signal 9 (Killed).

我知道这个问题是当您准备好进行后处理或集体通信时出现内存不足的情况。但是,在计算过程中发生这种情况非常烦人。

我正在使用OpenMPI,Slurm计划(计划程序不会写入错误文件,因此我无法提供有关触发此问题的操作的更多详细信息),而且令人惊讶的是,它总是发生在35000次迭代中。

有关如何处理此问题的任何建议? 我正在使用以下实例: 计算实例:c5.xlarge 主实例:t2.small

我在此处保存要在Slurm中提交的批处理脚本:

#!/bin/bash -l
#SBATCH -J $EXE_NAME
#SBATCH -o $EXE_NAME.out
#SBATCH -e $EXE_NAME.log
#SBATCH --exclusive
#SBATCH --time="UNLIMITED"

谢谢!

0 个答案:

没有答案