我正在考虑对小型GPU计算集群使用slurm。每个节点有4个GPU,在这个群集上,我想有两个分区:
1)单GPU作业,允许多个作业在单个节点上运行
2)占用整个节点的多GPU作业
根据我对文档的新手阅读,似乎一个节点可能属于这两个分区。是这样吗我正在查看FAQ问题“ Slurm可以模拟更大的集群吗?”位于这里: https://slurm.schedmd.com/faq.html#multi_slurmd
我认为这意味着我应该为每个GPU运行一个Slurmd,然后再执行一个Slurmd,以便每个节点可以访问所有GPU。还是我错过了一种更简单的设置方法?
后续问题,Slurm是否能够确定在节点A上运行的一个或多个单gpu作业使其暂时不适合运行多gpu作业,同样,在节点B上运行的多gpu作业使其暂时不合格。来运行单个gpu作业?