应用错误收集

我正在考虑对小型GPU计算集群使用slurm。每个节点有4个GPU，在这个群集上，我想有两个分区：

1）单GPU作业，允许多个作业在单个节点上运行

2）占用整个节点的多GPU作业

根据我对文档的新手阅读，似乎一个节点可能属于这两个分区。是这样吗我正在查看FAQ问题“ Slurm可以模拟更大的集群吗？”位于这里： https://slurm.schedmd.com/faq.html#multi_slurmd

我认为这意味着我应该为每个GPU运行一个Slurmd，然后再执行一个Slurmd，以便每个节点可以访问所有GPU。还是我错过了一种更简单的设置方法？

后续问题，Slurm是否能够确定在节点A上运行的一个或多个单gpu作业使其暂时不适合运行多gpu作业，同样，在节点B上运行的多gpu作业使其暂时不合格。来运行单个gpu作业？