在Twitter的开源办公室主任的this talk幻灯片25中,主持人说Mesos允许人们跟踪和管理GPU(我认为他的意思是GPGPU)资源。但我无法在其他地方找到任何相关信息。有人可以帮忙吗?除了Mesos之外,还有其他支持GPGPU的集群管理器吗?
答案 0 :(得分:5)
Mesos尚未为(GP)GPU提供直接支持,但支持自定义资源类型。如果在启动mesos-slave时指定--resources="gpu(*):8"
,那么这将成为框架资源提供的一部分,框架可以启动声称使用这些资源的任务。一旦某个任务正在使用某些gpu资源,则只会再次提供剩余资源,直到该任务完成并且gpu资源再次可用。通过这种方式,Mesos资源分配器实际上可以调度您声明的gpu资源,并确保仅向框架提供/分配声明的数量。
Mesos尚未支持gpu隔离,但使用“可插拔隔离器模块”,您可以构建自己的gpu隔离器来强制执行gpu资源限制。
或者,如果您不想分配单个gpu资源,但只想将某些节点声明为gpus而其他节点没有,那么您可以使用--attributes="hasGpu:true"
或类似的东西来区分执行的节点/没有gpus。此信息也会传递到资源提供中的框架,但这些属性不能被正在运行的任务“消耗”,因此它们将始终为该节点提供。
有关详细信息,请参阅https://mesos.apache.org/documentation/attributes-resources/