HPC计算节点未运行作业

时间:2017-04-06 12:30:36

标签: centos cluster-computing hpc

我没有太多信息,所以请让我知道我可以做些什么来诊断这个。

我的HPC有几个计算节点,我昨晚提交的一个作业在运行几个小时后暂停了。我今天早上用qstat检查了一下,发现自从我昨天上次检查它以来它没有取得任何进展。其他节点似乎正在处理好工作。

我删除了该作业并重新提交了该作业,但它看起来好像在队列中,即使在其之前没有安排其他作业。

gstat显示它没有排列进程,但该节点处于活动状态。

qstat -s表示"未运行:排空系统以允许饥饿作业运行"

如果它有用,则在CentOS 6.5环境中设置。

我还能做些什么来诊断这个问题?

1 个答案:

答案 0 :(得分:1)

事实证明,运行超过24小时的扭矩脚本会导致暂停放置在调度程序提交的所有其他作业上。我们需要杀死负责任的工作,一切都恢复原状。