我正在使用slurm,OpenMPI和python(带有MKL的anaconda)在多节点集群上运行工作。 当我提交工作时,它似乎都按预期工作。但是,如果我登录到运行该作业的其中一个节点并使用htop查看正在运行的进程,我会看到我开始的作业,并且对于每个作业,我看到另外10个"克隆"占用与我开始的作业相同的内存但具有0 CPU负载的进程(所有更改的是PID和CPU(0%)其他所有内容都相同)。
任何人都可以解释这种行为吗?
谢谢!
P.S。 这是我用来提交作业的批处理脚本:
#!/bin/zsh
#SBATCH --job-name="DSC on Natims"
#SBATCH -n 16
#SBATCH -N 8
#SBATCH --ntasks-per-node=2
#SBATCH --mem-per-cpu=20G
#SBATCH --output="log_dsc%j.out"
#SBATCH --error="log_dsc%j.err"
mpiexec -iface bond0 python dsc_run.py
答案 0 :(得分:0)
这些是由程序启动的线程,因此它们是同一进程的一部分。切换过程线程的显示按下大写" H"在htop看到差异。按F2查看“设置”菜单中的“显示选项”。您也可以切换到以不同颜色显示线程。