我正在开发一个18节点集群,运行TORQUE / PBS Pro / Open MPI。
设置 - 2个CPU /节点,12个内核/ CPU(每个节点允许24个进程)。
如果我提交需要在节点之间进行不均匀分割的PBS作业,例如一个需要说58过程的工作,我可以通过以下方式拆分:
#PBS -l nodes=2:ppn=24+1:ppn=10
使用所有24个核分配2个节点,使用10个核分配1个节点。所以我现在应该有58个任务在运行。
但是,当我执行qstat -a
时,输出显示我只运行了48个任务。它似乎永远不会计算不均匀分割的节点。
那么,那些额外的10个进程实际上是在运行吗?这是怎么回事? qtsat
的输出是不正确的?
我已经找到了所有可以找到的PBS自述文件,但没有运气。