指定slurm节点的数量

时间:2016-11-05 14:59:10

标签: parallel-processing mpi slurm

有一年我的slurm调度命令很好,但现在正在尝试为我的工作分配N + 1个节点,因为我正在运行的节点上安排了其他人。

我尝试在 2 节点上运行作业,这些节点作为48个进程运行,所有节点都有两个核心。 (所以,48个MPI工作,每个工作使用OMP_NUM_THREADS = 2),所以 96 一起。

在过去,我总是使用{以hostname作为示例来运行此事,因为它说明了问题)

srun  --partition=intel \
   -N 2                 \
   --ntasks-per-node=24 \
   --ntasks=48          \
   --cpus-per-task=2    \
   hostname

但现在squeue告诉我pending resources等待 3 节点,而不是 2 。{/ p>

$ squeue
     JOBID PARTITION    NAME     USER    ST       TIME  NODES NODELIST(REASON)
     1282   intel     hostname  gmp13x64 PD       0:00      3 (Resources)
     1229   intel     bwd-pm25   shunliu  R 5-12:51:18      1 dena5

intel队列由两个节点组成dena5dena6

gmp13x64@dena:script_dev$ sinfo --Node --long
Sat Nov  5 10:49:51 2016
NODELIST          NODES PARTITION       STATE CPUS    S:C:T MEMORY TMP_DISK WEIGHT FEATURES REASON              
dena5                 1     intel   allocated   48   2:12:2 128833     1951      1   (null) none                
dena6                 1     intel        idle   48   2:12:2 128833     1951      1   (null) none

我的解释是sinfo给出的信息是我的设置应该没问题。此外,在过去,这一直有效。

为什么slurm突然说这需要3个节点?考虑到intel分区只有2个节点,怎么会这样呢?我是否错误地解释了我使用的一些标志?

0 个答案:

没有答案