我正在Nextflow中运行一些数据分析工作流程,这些工作流程用于提交和监视SLURM作业。但是,由于它提交的某些SLURM作业停止响应,我一直遇到我的工作流无限期挂起的错误。当我查看squeue
输出时,这些作业不存在,并且基于(缺少)日志和文件输出,看来该作业实际上从未运行过。但是,当我提取有关工作的sacct
信息时,会得到如下矛盾状态:
$ sacct -j 746124
JobID JobName Partition Account AllocCPUS State ExitCode
------------ ---------- ---------- ---------- ---------- ---------- --------
746124 nf-gatk_h+ cpu_short system 9 FAILED 1:0
746124.batch batch system 9 FAILED 1:0
746124.exte+ extern system 9 COMPLETED 0:0
$ sacct -j 742186
JobID JobName Partition Account AllocCPUS State ExitCode
------------ ---------- ---------- ---------- ---------- ---------- --------
742186 nf-trimmo+ cpu_short system 9 COMPLETED 0:0
742186.batch batch system 9 FAILED 0:0
742186.exte+ extern system 9 COMPLETED 0:0
任何想法都意味着什么,以及如何处理?我的工作流程不知道如何解释,因为SLURM作业已成功提交但从未真正运行过。在网上搜索了一段时间,但找不到任何线索,这些矛盾的工作状态意味着什么,它们可能是如何产生的,或如何处理它们。
我能找到的唯一有用的页面是this,但实际上并不能解决如下所示的奇怪错误状态。
在RHEL 7上运行SLURM 17.11.7