我是使用SLURM的计算群集上的非付费用户。
偶尔,我有长时间运行的多个工作,这些工作会阻塞付费用户的squeue。由于这个原因,我已经取消了管理员的工作。目前我对可用的节点数量设置了上限。虽然我不赞成这种安排的公平性,但在完成工作方面这对我来说是一个问题,特别是因为我看到没有运行任何工作的免费节点,而我只是等待工作通过节点上限....
以此作为背景信息,这是我的两个问题:
管理员是否可以暂停,然后恢复作业 - 作业,用户的所有作业或一组作业?从管理员的角度来看这暂停/恢复是否繁重?
我认为应该可以创建付费用户非付费用户列表。当支付用户名提交时,使用sbatch自动指示SLURM暂停非付费用户名的工作或工作,并在付费用户的工作完成后恢复。这甚至可能吗?如果是,是否超出常规SLURM / Farm管理员的技能范围?
有人可以建议任何其他解决方案(如果我上面提到的是不合理或荒谬的话)?
谢谢!
答案 0 :(得分:0)
管理员可以scontrol suspend jobid
然后scontrol resume jobid
此处的关键字是' QOS'和' preemption'。通常,为付费用户创建QOS,其具有优先于正常QOS的优先权。非付费用户的工作可以取消,检查点,重新排队或暂停。