SLURM错误:sbatch:错误:批处理作业提交失败:请求的节点配置不可用

时间:2019-09-17 15:35:38

标签: slurm

我正在尝试使用集群来运行MPI代码。集群硬件由30个节点组成,每个节点具有以下规格: 16个核心于2个插槽(Intel Xeon e5-2650 v2)-(32个核心启用了多线程) 64 GByte 1866 MT / s主内存 命名:aria

slurm配置文件如下:

#SBATCH --ntasks=64                     # Number of MPI ranks
#SBATCH --cpus-per-task=1               # Number of cores per MPI rank
#SBATCH --nodes=2                       # Number of nodes
#SBATCH --ntasks-per-node=32             # How many tasks on each node
#SBATCH --ntasks-per-socket=16          # How many tasks on each CPU or socket
#SBATCH --mem-per-cpu=100mb             # Memory per core

我提交作业时,返回消息显示以下内容:sbatch:错误:批量作业提交失败:请求的节点配置不可用 这有点令人困惑。我要为每个CPU提交一个任务,然后在节点和套接字之间平均分配任务,任何人都可以就上述配置的问题提出建议吗?还有一件事:根据硬件规格,最佳配置是什么?

预先感谢

1 个答案:

答案 0 :(得分:0)

准确查看sinfo -Nl命令提供的节点。

如果可能是那样  *未启用超线程(在HPC群集中通常是这种情况),或者
 *为Slurm和操作系统保留一个内核,或者  *启用了超线程,但Slurm配置为调度物理内核

对于最佳作业配置,这取决于如何定义“最佳”。为了获得最佳解决时间,通常最好让Slurm决定如何组织节点上的等级,因为这样便可以更快地开始工作。

#SBATCH --ntasks=64                     # Number of MPI ranks
#SBATCH --mem-per-cpu=100mb             # Memory per core

为了获得最佳的工作绩效(在进行基准测试或成本分析等情况下),您还需要考虑切换。 (尽管有30个节点,但您可能只有一个开关)

#SBATCH --ntasks=64                     # Number of MPI ranks
#SBATCH --exclusive
#SBATCH --switches=1
#SBATCH --mem-per-cpu=100mb             # Memory per core

使用--exclusive将确保您的工作不会被其他工作打扰。