Q队列中的所有作业都用于Torque Pbs调度程序

时间:2016-03-15 13:43:31

标签: debian cluster-computing pbs torque

我是使用torque / pbs调度程序的新手,我将它安装在一台debian 8机器上的服务器上,并在带有debian 8的计算节点上进行客户端的另一次安装。

在我的服务器上运行pbs_server和pbs_sched,在我的计算节点上有pbs_mom,每个日志都没有错误,pbsnode -a看起来不错:

root@debian8s-1:[torque]>pbsnodes -a
debian8s-2
     state = free
     power_state = Running
     np = 4
     ntype = cluster
     status = rectime=1458048686,macaddr=00:14:5d:0f:8d:08,cpuclock=Fixed,varattr=,jobs=,state=free,netload=109918452,gres=,loadave=0.32,ncpus=4,physmem=16432364kb,availmem=20066372kb,totmem=20337896kb,idletime=13385,nusers=1,nsessions=3,sessions=989 992 998,uname=Linux debian8s-2 3.16.0-4-amd64 #1 SMP Debian 3.16.7-ckt11-1+deb8u4 (2015-09-19) x86_64,opsys=linux
     mom_service_port = 15002
     mom_manager_port = 15003

我提交的每份工作都停留在Q:

root@debian8s-1:[torque]>qstat
Job ID                    Name             User            Time Use S Queue
------------------------- ---------------- --------------- -------- - -----
3.debian8s-1               STDIN            tototo                 0 Q batch          
5.debian8s-1               my_job           tototo                 0 Q batch          
6.debian8s-1               STDIN            tototo                 0 Q batch          
7.debian8s-1               STDIN            tototo                 0 Q batch          
8.debian8s-1               STDIN            tototo                 0 Q batch 

我找了文档,但没有找到关于这个问题的任何内容,有没有人知道我错过了什么?

感谢。

1 个答案:

答案 0 :(得分:0)

Per Dmitri的评论,tracejobqstat -f是值得关注的好地方。当然,您要验证pbs_sched实际上是否正在运行;如果是这种情况,那么您需要通过检查pbs_mom日志进行故障排除,默认情况下,您会在计算节点上的/var/spool/torque/mom_logs/<YYYYMMDD>中找到pbs_mom --about日志(如果有疑问,请运行{ {1}}用于安装详细信息。此外,特别是在作业无法启动的情况下,您可能必须在MOM主机上的pbs_mom中查找/var/log/messages日志条目。您可以提交测试作业在这样的特定节点上运行:

echo sleep 600 | qsub -l nodes=cn001:ppn=1,walltime=630

然后,您可以通过发出qrun <job ID>

强制它运行

此外,您可以在节点上发布kill -SIGUSR1 $(pgrep pbs_mom)以增加日志记录(或momctl -q loglevel以查看当前级别,并momctl -q loglevel=6进行更改。