我们正在寻求为深度学习模型培训工作构建一个计算节点群集,其中一些在云端,另一些在本地,其中包含NVIDIA GPU。我们认为使用Mesos和Marathon(M& M)框架将是我们安排集群的最佳选择。然而,(M& M)的文件似乎非常模糊(或者至少对我来说,抱歉我是实习生)而且我遇到了很多关于Zookeeper和节点之间连接的问题。
另外,在教程和文档方面,似乎Mesosphere对DC / OS更加重视,我想它也会更经常地修补,其界面(GUI和CLI)看起来更加用户友好
所以我想知道如果放弃对(M& M)的探索并转向DC / OS,我们是否会失去对集群的大量控制?在M& M,我们是否有DC / OS开源版无法提供的额外津贴?比如监控机器,记录结果等。如果我问我的经理我们也可能得到企业版,这不是一个真正的问题,但DC / OS是否应用了一个不是高级用户的抽象层呢?
答案 0 :(得分:1)
免责声明:我在Mesosphere工作。