所以我同时运行以下pbs文件:
qsub / mnt / folder / prueba1_1 qsub / mnt / folder / prueba01
这是文件
prueba1_1
#!/bin/bash
#PBS -N pruebaF
#PBS -V
#PBS -l nodes=1:ppn=1
#PBS -q batch
#PBS -j eo
cd /mnt/folder
mpiexec -f machinefile ./cpi2>>salida1_1.o
prueba01
#!/bin/bash
#PBS -N pruebaF
#PBS -V
#PBS -l nodes=1:ppn=1
#PBS -q batch
#PBS -j eo
cd /mnt/folder
mpiexec -f machinefile ./cpi2>>salida01.o
文件machinefile包含2个节点slave02和slave03,每个节点有1个处理器
虽然我指定每个pbs文件应该每个作业只使用1个节点和1个处理器(#PBS -l nodes = 1:ppn = 1),但输出文件似乎表明每个作业同时使用两个节点时间。我想知道为什么因为这些pbsfiles应该只使用一个节点和一个处理器,对我来说应该是prueba1_1应该使用slave02和1个处理器,而prueba01也应该使用slave02但是使用另一个处理器。
输出文件在这里
salida1_1.o
Process 0 of 2 is on slave02
Process 1 of 2 is on slave03
pi is approximately 3.1415926535900915, Error is 0.0000000000002984
wall clock time = 14.937282
salida01.o
Process 0 of 2 is on slave02
Process 1 of 2 is on slave03
pi is approximately 3.1415926535900915, Error is 0.0000000000002984
wall clock time = 14.741892
答案 0 :(得分:1)
我会将machinefile更改为$ PBS_NODEFILE。当Torque / PBS为您的作业分配节点时,它会创建一个包含这些节点列表的文件,并在变量PBS_NODEFILE中设置该文件的路径。我猜测机器文件是为了测试而创建的,因为它不是由Torque创建或更新的,这就是为什么你的工作总是以相同的方式运行。