扭矩不限制mpiexec使用的节点数

时间:2015-02-12 01:17:45

标签: parallel-processing torque mpiexec

所以我同时运行以下pbs文件:

qsub / mnt / folder / prueba1_1 qsub / mnt / folder / prueba01

这是文件

prueba1_1

#!/bin/bash
#PBS -N pruebaF
#PBS -V
#PBS -l nodes=1:ppn=1
#PBS -q batch
#PBS -j eo
cd /mnt/folder
mpiexec -f machinefile  ./cpi2>>salida1_1.o

prueba01

#!/bin/bash
#PBS -N pruebaF
#PBS -V
#PBS -l nodes=1:ppn=1
#PBS -q batch
#PBS -j eo
cd /mnt/folder
mpiexec -f machinefile  ./cpi2>>salida01.o

文件machinefile包含2个节点slave02和slave03,每个节点有1个处理器

虽然我指定每个pbs文件应该每个作业只使用1个节点和1个处理器(#PBS -l nodes = 1:ppn = 1),但输出文件似乎表明每个作业同时使用两个节点时间。我想知道为什么因为这些pbsfiles应该只使用一个节点和一个处理器,对我来说应该是prueba1_1应该使用slave02和1个处理器,而prueba01也应该使用slave02但是使用另一个处理器。

输出文件在这里

salida1_1.o

Process 0 of 2 is on slave02
Process 1 of 2 is on slave03
pi is approximately 3.1415926535900915, Error is 0.0000000000002984
wall clock time = 14.937282

salida01.o

Process 0 of 2 is on slave02
Process 1 of 2 is on slave03
pi is approximately 3.1415926535900915, Error is 0.0000000000002984
wall clock time = 14.741892

1 个答案:

答案 0 :(得分:1)

我会将machinefile更改为$ PBS_NODEFILE。当Torque / PBS为您的作业分配节点时,它会创建一个包含这些节点列表的文件,并在变量PBS_NODEFILE中设置该文件的路径。我猜测机器文件是为了测试而创建的,因为它不是由Torque创建或更新的,这就是为什么你的工作总是以相同的方式运行。