我是SLURM的新用户,并且在同时运行并行作业时遇到一些问题。我正在由约60个节点组成的群集上运行这些作业,每个节点有48个内核。我正在运行仿真软件,该软件使用OpenMPI在单个仿真运行中跨多个内核运行。我的目的是同时运行此仿真代码的多个实例。
我使用sbatch提交的脚本如下:
#SBATCH -t 1:00:00
#SBATCH -N 5
module load foss
srun --hint=nomultithread -N 3 --ntasks=144 mpirun astra_r63_Linux_x86_OpenMPI_1.10.6_centos_7.4 lattice1a_injector_0.in &> astra_0.out.txt &
srun --hint=nomultithread -N 2 --ntasks=96 mpirun astra_r63_Linux_x86_OpenMPI_1.10.6_centos_7.4 lattice1a_injector_1.in &> astra_1.out.txt &
wait
在这里,我打算使用5个节点(共48个内核)(即240个内核),其中3个节点用于astra_r63_Linux_x86_OpenMPI_1.10.6_centos_7.4的第一个实例,第二个用于第二个实例。但是,当我运行此命令时,我在SLURM输出文件中收到以下错误消息:
运行:错误:无法创建作业步骤:请求的处理器多于允许的数量 srun:错误:无法创建作业步骤:请求的处理器超出允许的数量
有人知道我在做什么错吗?我已经在论坛上检查了类似的问题,并模拟了教程,但似乎没有任何东西可以解决此问题。