我有一个Debian集群,每个集群有2个节点和两个四核处理器。我使用Torque和Maui作为调度程序。当我尝试使用16个进程运行MPI作业时,调度程序无法运行作业:要么将其放入队列(尽管当时没有任何作业运行),要么运行并且生成的输出文件说明你试图用4个处理器来运行16个进程的工作。
my ... / pbs / server_priv / nodes文件如下所示:
node1 np=8
node2 np=8
以及我用来运行程序的脚本示例如下:
#!/bin/sh
#PBS -d /home/bellman/
#PBS -N output
#PBS -k oe
#PBS -j oe
#PBS -l nodes=2:ppn=8,walltime=10000:00:00
#PBS -V
ulimit -s 536870912
# How many procs do I have?
NP=$(wc -l $PBS_NODEFILE | awk '{print $1}')
echo Number of processors is $NP
mpiexec -np 16 /home/bellman/AAA
我尝试了很多节点和ppn的组合,但是发生了两个错误之一。关于发生了什么的任何想法?
答案 0 :(得分:0)
你有没有尝试过:
#PBS -l nodes=2:ncpus=8,walltime=10000:00:00