有一年我的slurm调度命令很好,但现在正在尝试为我的工作分配N + 1个节点,因为我正在运行的节点上安排了其他人。
我尝试在 2 节点上运行作业,这些节点作为48个进程运行,所有节点都有两个核心。 (所以,48个MPI工作,每个工作使用OMP_NUM_THREADS
= 2),所以 96 一起。
在过去,我总是使用{以hostname
作为示例来运行此事,因为它说明了问题)
srun --partition=intel \
-N 2 \
--ntasks-per-node=24 \
--ntasks=48 \
--cpus-per-task=2 \
hostname
但现在squeue告诉我pending
resources
等待 3 节点,而不是 2 。{/ p>
$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
1282 intel hostname gmp13x64 PD 0:00 3 (Resources)
1229 intel bwd-pm25 shunliu R 5-12:51:18 1 dena5
intel
队列由两个节点组成dena5
和dena6
gmp13x64@dena:script_dev$ sinfo --Node --long
Sat Nov 5 10:49:51 2016
NODELIST NODES PARTITION STATE CPUS S:C:T MEMORY TMP_DISK WEIGHT FEATURES REASON
dena5 1 intel allocated 48 2:12:2 128833 1951 1 (null) none
dena6 1 intel idle 48 2:12:2 128833 1951 1 (null) none
我的解释是sinfo
给出的信息是我的设置应该没问题。此外,在过去,这一直有效。
为什么slurm突然说这需要3个节点?考虑到intel
分区只有2个节点,怎么会这样呢?我是否错误地解释了我使用的一些标志?