鉴于单个节点具有多个GPU,是否有一种方法可以根据请求的GPU数量自动限制CPU和内存使用?
尤其是,如果用户作业脚本请求2个GPU,则该作业应自动限制为2*BaseMEM
和2*BaseCPU
,其中BaseMEM = TotalMEM/numGPUs
和BaseCPU=numCPUs/numGPUs
在每个节点的基础上定义。
是否可以通过这种方式配置SLURM?如果不是,是否可以“虚拟地”将一台多GPU的计算机拆分为多个具有适当CPU和MEM计数的节点?
答案 0 :(得分:1)
在命令行上
--cpus-per-gpu $BaseCPU --mem-per-gpu $BaseMEM
在slurm.conf
DefMemPerGPU=1234
DefCpuPerGPU=1
由于不能在slurm.conf中使用变量,因此需要编写一个小的bash命令来计算$ BaseCPU和$ BaseMEM