今天的MPI标准不容错。如果我们需要扩展或缩小,则需要重新启动整个工作负载。
有没有办法在不必重启的情况下处理缩放?这是深度学习训练场景。大多数DL框架今天都使用MPI。
答案 0 :(得分:1)
我担心你会混合几个概念
您可能指的是Elasticity(如Amazon Elastic Compute Cloud中所述),这是必须在应用程序中构建的内容。通常,您的应用程序应该是可检查的和,能够在不同数量的节点/任务上重新启动。这可能是可以实现的"在飞行中"但它有其他含义(如何通知应用程序或多或少的节点?)
答案 1 :(得分:0)
如今,有几个正在进行的项目涉及MPI延展性(在运行中改变流程数量)。
在这个article中,您将找到最新的艺术状态(据我所知)和应用程序中实现延展性的解决方案,因为到目前为止,它无法自动完成。
希望它有所帮助。