Torque + MAUI PBS提交了奇怪的创业公司

时间:2014-07-10 15:53:47

标签: pbs torque

我正在使用Torque + MAUI群集。

群集的利用现在是~10个节点/ 40个节点可用,大量作业正在排队但无法启动。

我使用qsub提交了以下PBS脚本:

#!/bin/bash
#
#PBS -S /bin/bash
#PBS -o STDOUT
#PBS -e STDERR
#PBS -l walltime=500:00:00
#PBS -l nodes=1:ppn=32
#PBS -q zone0

cd /somedir/workdir/
java -Xmx1024m -Xms256m -jar client_1_05.jar

作业立即获得R(联合国)状态,但我从qstat -n

获得了这种异常信息
8655.cluster.local      user       zone0    run.sh         --      1     32    --  500:00:00 R  00:00:31
z0-1/0+z0-1/1+z0-1/2+z0-1/3+z0-1/4+z0-1/5+z0-1/6+z0-1/7+z0-1/8+z0-1/9
+z0-1/10+z0-1/11+z0-1/12+z0-1/13+z0-1/14+z0-1/15+z0-1/16+z0-1/17+z0-1/18
+z0-1/19+z0-1/20+z0-1/21+z0-1/22+z0-1/23+z0-1/24+z0-1/25+z0-1/26+z0-1/27
+z0-1/28+z0-1/29+z0-1/30+z0-1/31

--中的异常部分为run.sh -- 1 32,因为缺少sessionId,显然脚本根本不运行,即java程序没有启动的痕迹。

在这种奇怪的运行约5分钟之后,作业将被设置回Q(ueue)状态并且似乎不会再次运行(我已经监视了这个约1周而且它甚至没有排队等待到最顶端的工作)。

我尝试提交相同的作业14次,并在qstat -n中监视其节点,7个副本成功运行,具有不同的节点编号,但所有分配的作业z0-1/*都遇到了这种奇怪的启动行为

  1. 任何人都知道这个问题的解决方案吗?

  2. 对于临时解决方法,如何指定NOT在PBS脚本中使用这些奇怪的节点?

2 个答案:

答案 0 :(得分:1)

听起来这些节点出了问题。一种解决方案是使不工作的节点脱机:pbsnodes -o <node name>并允许群集继续工作。您可能需要释放任何作业的保留。我相信你可以在毛伊岛运行releasehold ALL来实现这个目标。

一旦你处理完我就会调查那些节点上的日志(从pbs_mom日志和syslogs开始)并找出它们有什么问题。找出并纠正错误后,您可以将节点重新联机:pbsnodes -c <node_name>。您可能还需要设置一些node health scripts来主动检测和处理这些情况。

答案 1 :(得分:0)

对于用户,请与管理员联系,同时使用此解决方法运行作业。

  1. 使用pbsnodes检查免费且健康的节点

  2. 修改PBS指令#PBS -l nodes=<freenode1>:ppn=<ppn1>+<freenode2>:ppn=<ppn2>+...

  3. 使用qsub

  4. 提交作业