清除SGE中的死节点

时间:2015-07-02 05:57:04

标签: sungridengine qsub

我的qstat -g c表示我有一些死节点(正式为“cdsuE”):

CLUSTER QUEUE                   CQLOAD   USED    RES  AVAIL  TOTAL aoACDS  cdsuE  
--------------------------------------------------------------------------------
all.q                             0.11     18      0      9     37      0     10 

是否有一种简单的方法可以从队列中清除或删除这些节点?

SGE非常聪明,不会为他们分配工作,但他们会混淆各种显示器。

2 个答案:

答案 0 :(得分:1)

我做得很硬。

  1. 杀死工作"跑步"或卡在死节点上。
  2. 运行qconf删除节点管道
  3. -

    qconf -dattr hostgroup hostlist <nodealias> @allhosts'
    qconf -purge queue slots all.q@<nodealias>
    qconf -dconf <nodealias>
    qconf -de <nodealias>
    

答案 1 :(得分:0)

如果您只想从队列中删除,请将其从队列中删除 用:

qconf -dattr queue hostlist <nodename> all.q

或者如果它们是通过主机组合并的

qconf -dattr hostgroup hostlist <nodename> <hostgroup>

这是将它们从队列中取出所需的最低限度,但如果您以后设法将它们重新保存,则可以轻松地将它们添加回来。

如果节点上有任何ghost作业,那么使用qdel -f去掉它们