今天我将作业提交到节点/分区cn430
之后,我发现该节点一直处于忙碌状态,
上一个作业完成后,由于优先级,我的作业仍然无法运行。然后我注意到所有这些作业都具有相同的前缀,即4988443
,它在我的作业ID 4988560
之前。
似乎用户已经提交了大约1000个作业,并且在多个分区中具有相同的优先级,
我想知道如何实现它。
答案 0 :(得分:2)
首先,cn430
实际上看起来像是节点而不是分区。它所属的分区似乎被命名为shared-gp
。
您看到的是job array。这是一种提交大量仅在特定参数上有所不同的作业的方法。阵列中的每个作业都是独立调度的,因此,如果您不请求特定节点(例如,使用-w
或--nodelist
),Slurm会将其广播到可用节点。
请注意,如果实施faishare,则作业优先级会随着时间的推移而下降,因此由于当前正在运行的作业,当前待处理的作业的优先级会降低。