SLURM中的工作状态

时间:2013-10-11 21:07:27

标签: linux batch-processing hpc slurm

我想查看最近在集群上运行的所有作业(已完成,失败并正在运行)。我还想看到每份工作1个条目。执行sacct每个作业使用State: FAILED, FAILED, COMPLETED重新生成3行。这是什么意思,我如何查看我希望看到的实际信息?

我不明白JobName的{​​{1}}是什么意思。

以下是输出的副本:

true

提交脚本(请注意< %%>中的值由R中的BatchJobs包处理):

   JobID    JobName  Partition    Account  AllocCPUS      State ExitCode 
 ------------ ---------- ---------- ---------- ---------- ---------- -------- 
 2160852               R   interact cluster_u+          2  COMPLETED      0:0 
 2160864               R   interact cluster_u+          2  COMPLETED      0:0 
 2161424               R   interact cluster_u+          2  COMPLETED      0:0 
 2161430               R   interact cluster_u+          0 CANCELLED+      0:0 
 2161431               R   interact cluster_u+          2  COMPLETED      0:0 
 2161668               R   interact cluster_u+          2  COMPLETED      0:9 
 2161682          myjob+    general cluster_u+          2     FAILED      1:0 
 2161682.bat+      batch            cluster_u+          1     FAILED      1:0 
 2161682.0          true            cluster_u+          1  COMPLETED      0:0 
 2161683          myjob+    general cluster_u+          2     FAILED      1:0 
 2161683.bat+      batch            cluster_u+          1     FAILED      1:0 
 2161683.0          true            cluster_u+          1  COMPLETED      0:0 

1 个答案:

答案 0 :(得分:3)

sacct将为每个作业打印一行,然后在该作业中为每个作业步骤打印一行。

 2161683          myjob+    general cluster_u+          2     FAILED      1:0  <- the job
 2161683.bat+      batch            cluster_u+          1     FAILED      1:0  <- the batch script
 2161683.0          true            cluster_u+          1  COMPLETED      0:0  <- the R step

作业状态失败,因为脚本本身状态失败。您的脚本中有一个作业步骤,并且它已正确终止。

我经常诉诸sacct |grep -v "^[0-9]*\."来获取工作信息。