我想查看最近在集群上运行的所有作业(已完成,失败并正在运行)。我还想看到每份工作1个条目。执行sacct
每个作业使用State: FAILED, FAILED, COMPLETED
重新生成3行。这是什么意思,我如何查看我希望看到的实际信息?
我不明白JobName
的{{1}}是什么意思。
以下是输出的副本:
true
提交脚本(请注意< %%>中的值由R中的BatchJobs包处理):
JobID JobName Partition Account AllocCPUS State ExitCode
------------ ---------- ---------- ---------- ---------- ---------- --------
2160852 R interact cluster_u+ 2 COMPLETED 0:0
2160864 R interact cluster_u+ 2 COMPLETED 0:0
2161424 R interact cluster_u+ 2 COMPLETED 0:0
2161430 R interact cluster_u+ 0 CANCELLED+ 0:0
2161431 R interact cluster_u+ 2 COMPLETED 0:0
2161668 R interact cluster_u+ 2 COMPLETED 0:9
2161682 myjob+ general cluster_u+ 2 FAILED 1:0
2161682.bat+ batch cluster_u+ 1 FAILED 1:0
2161682.0 true cluster_u+ 1 COMPLETED 0:0
2161683 myjob+ general cluster_u+ 2 FAILED 1:0
2161683.bat+ batch cluster_u+ 1 FAILED 1:0
2161683.0 true cluster_u+ 1 COMPLETED 0:0
答案 0 :(得分:3)
sacct将为每个作业打印一行,然后在该作业中为每个作业步骤打印一行。
2161683 myjob+ general cluster_u+ 2 FAILED 1:0 <- the job
2161683.bat+ batch cluster_u+ 1 FAILED 1:0 <- the batch script
2161683.0 true cluster_u+ 1 COMPLETED 0:0 <- the R step
作业状态失败,因为脚本本身状态失败。您的脚本中有一个作业步骤,并且它已正确终止。
我经常诉诸sacct |grep -v "^[0-9]*\."
来获取工作信息。