Question

有一年我的slurm调度命令很好，但现在正在尝试为我的工作分配N + 1个节点，因为我正在运行的节点上安排了其他人。

我尝试在 2 节点上运行作业，这些节点作为48个进程运行，所有节点都有两个核心。（所以，48个MPI工作，每个工作使用OMP_NUM_THREADS = 2），所以 96 一起。

在过去，我总是使用{以hostname作为示例来运行此事，因为它说明了问题）

srun  --partition=intel \
   -N 2                 \
   --ntasks-per-node=24 \
   --ntasks=48          \
   --cpus-per-task=2    \
   hostname

但现在squeue告诉我pending resources等待 3 节点，而不是 2 。{/ p>

$ squeue
     JOBID PARTITION    NAME     USER    ST       TIME  NODES NODELIST(REASON)
     1282   intel     hostname  gmp13x64 PD       0:00      3 (Resources)
     1229   intel     bwd-pm25   shunliu  R 5-12:51:18      1 dena5

intel队列由两个节点组成dena5和dena6

gmp13x64@dena:script_dev$ sinfo --Node --long
Sat Nov  5 10:49:51 2016
NODELIST          NODES PARTITION       STATE CPUS    S:C:T MEMORY TMP_DISK WEIGHT FEATURES REASON              
dena5                 1     intel   allocated   48   2:12:2 128833     1951      1   (null) none                
dena6                 1     intel        idle   48   2:12:2 128833     1951      1   (null) none

我的解释是sinfo给出的信息是我的设置应该没问题。此外，在过去，这一直有效。

为什么slurm突然说这需要3个节点？考虑到intel分区只有2个节点，怎么会这样呢？我是否错误地解释了我使用的一些标志？

指定slurm节点的数量

0 个答案: