在SLURM群集上,可以使用squeue
获取有关系统上作业的信息。
我知道“R”表示 r unning;和“PD”意味着 p en d ing,但什么是“CG”?
我理解它是从经验中“取消”或“失败”,但当成功 c 工作失败时,“CG”是否适用?什么是 G ?
答案 0 :(得分:20)
“CG”代表“ c ompletin g ”并且它发生在无法终止的作业中,可能是因为I / O操作。
中的更详细信息答案 1 :(得分:7)
我在Slurm故障排除指南的'squeue' section中找到了这个:
状态
工作状态,扩展形式:待命,运行,停止,暂停, 取消,完成,完成,配置,失败,超时, PREEMPTED,NODE_FAIL,REVOKED和SPECIAL_EXIT。参见工作状态 下面的CODES部分了解更多信息。 (仅对作业有效)
statecompact
作业状态,紧凑形式:PD(待定),R(正在运行),CA(已取消), CF(配置), CG(完成),CD(已完成),F(已失败),TO (超时),NF(节点故障),RV(已撤销)和SE(特殊退出 州)。有关详细信息,请参阅下面的“JOB STATE CODES”部分。 (仅对作业有效)