SLURM sacct将作业显示为FAILED和COMPLETED

时间:2019-01-08 15:25:36

标签: slurm

我正在Nextflow中运行一些数据分析工作流程,这些工作流程用于提交和监视SLURM作业。但是,由于它提交的某些SLURM作业停止响应,我一直遇到我的工作流无限期挂起的错误。当我查看squeue输出时,这些作业不存在,并且基于(缺少)日志和文件输出,看来该作业实际上从未运行过。但是,当我提取有关工作的sacct信息时,会得到如下矛盾状态:

$ sacct -j 746124
       JobID    JobName  Partition    Account  AllocCPUS      State ExitCode
------------ ---------- ---------- ---------- ---------- ---------- --------
746124       nf-gatk_h+  cpu_short     system          9     FAILED      1:0
746124.batch      batch                system          9     FAILED      1:0
746124.exte+     extern                system          9  COMPLETED      0:0


$ sacct -j 742186
       JobID    JobName  Partition    Account  AllocCPUS      State ExitCode
------------ ---------- ---------- ---------- ---------- ---------- --------
742186       nf-trimmo+  cpu_short     system          9  COMPLETED      0:0
742186.batch      batch                system          9     FAILED      0:0
742186.exte+     extern                system          9  COMPLETED      0:0

任何想法都意味着什么,以及如何处理?我的工作流程不知道如何解释,因为SLURM作业已成功提交但从未真正运行过。在网上搜索了一段时间,但找不到任何线索,这些矛盾的工作状态意味着什么,它们可能是如何产生的,或如何处理它们。

我能找到的唯一有用的页面是this,但实际上并不能解决如下所示的奇怪错误状态。

在RHEL 7上运行SLURM 17.11.7

0 个答案:

没有答案