我是使用torque / pbs调度程序的新手,我将它安装在一台debian 8机器上的服务器上,并在带有debian 8的计算节点上进行客户端的另一次安装。
在我的服务器上运行pbs_server和pbs_sched,在我的计算节点上有pbs_mom,每个日志都没有错误,pbsnode -a看起来不错:
root@debian8s-1:[torque]>pbsnodes -a
debian8s-2
state = free
power_state = Running
np = 4
ntype = cluster
status = rectime=1458048686,macaddr=00:14:5d:0f:8d:08,cpuclock=Fixed,varattr=,jobs=,state=free,netload=109918452,gres=,loadave=0.32,ncpus=4,physmem=16432364kb,availmem=20066372kb,totmem=20337896kb,idletime=13385,nusers=1,nsessions=3,sessions=989 992 998,uname=Linux debian8s-2 3.16.0-4-amd64 #1 SMP Debian 3.16.7-ckt11-1+deb8u4 (2015-09-19) x86_64,opsys=linux
mom_service_port = 15002
mom_manager_port = 15003
我提交的每份工作都停留在Q:
root@debian8s-1:[torque]>qstat
Job ID Name User Time Use S Queue
------------------------- ---------------- --------------- -------- - -----
3.debian8s-1 STDIN tototo 0 Q batch
5.debian8s-1 my_job tototo 0 Q batch
6.debian8s-1 STDIN tototo 0 Q batch
7.debian8s-1 STDIN tototo 0 Q batch
8.debian8s-1 STDIN tototo 0 Q batch
我找了文档,但没有找到关于这个问题的任何内容,有没有人知道我错过了什么?
感谢。
答案 0 :(得分:0)
Per Dmitri的评论,tracejob
和qstat -f
是值得关注的好地方。当然,您要验证pbs_sched
实际上是否正在运行;如果是这种情况,那么您需要通过检查pbs_mom
日志进行故障排除,默认情况下,您会在计算节点上的/var/spool/torque/mom_logs/<YYYYMMDD>
中找到pbs_mom --about
日志(如果有疑问,请运行{ {1}}用于安装详细信息。此外,特别是在作业无法启动的情况下,您可能必须在MOM主机上的pbs_mom
中查找/var/log/messages
日志条目。您可以提交测试作业在这样的特定节点上运行:
echo sleep 600 | qsub -l nodes=cn001:ppn=1,walltime=630
然后,您可以通过发出qrun <job ID>
此外,您可以在节点上发布kill -SIGUSR1 $(pgrep pbs_mom)
以增加日志记录(或momctl -q loglevel
以查看当前级别,并momctl -q loglevel=6
进行更改。