我没有太多信息,所以请让我知道我可以做些什么来诊断这个。
我的HPC有几个计算节点,我昨晚提交的一个作业在运行几个小时后暂停了。我今天早上用qstat检查了一下,发现自从我昨天上次检查它以来它没有取得任何进展。其他节点似乎正在处理好工作。
我删除了该作业并重新提交了该作业,但它看起来好像在队列中,即使在其之前没有安排其他作业。
gstat显示它没有排列进程,但该节点处于活动状态。
qstat -s表示"未运行:排空系统以允许饥饿作业运行"
如果它有用,则在CentOS 6.5环境中设置。
我还能做些什么来诊断这个问题?
答案 0 :(得分:1)
事实证明,运行超过24小时的扭矩脚本会导致暂停放置在调度程序提交的所有其他作业上。我们需要杀死负责任的工作,一切都恢复原状。