这是Torque / PBS作业管理器的问题。我运行以下命令在一个节点上分配8个核心,但是,我自己知道该节点的空闲核心少于8个。如您所见,交互式作业已启动意味着一切正常!
mahmood@cluster:~$ qsub -X -I -l nodes=compute-0-1:ppn=8
qsub: waiting for job 1488.cluster.edu to start
qsub: job 1488.cluster.edu ready
但是,在另一个终端上,qstat -an
的输出显示它实际分配了4个核心
1488.cluster.edu mahmood default STDIN 5648 4 4 -- -- R -- compute-0-3/31+compute-0-3/30+compute-0-3/29+compute-0-3/28
此外,showq
命令显示仅分配了4个核心
1488 mahmood Running 4 99:23:53:55 Sat Dec 10 20:34:10
也许这似乎是正常的,并且PBS智能地分配了重新发送的核心。但是,当用户提交8核作业时,将在节点上创建8个进程。这意味着,PBS分配了4个核心,但作业在8个核心上运行。
由于节点没有8个空闲内核,因此这种情况表明CPU利用率低于100%,因为某些内核正在运行多个进程。
有什么想法吗?