有没有办法让MPI实现敏捷?

时间:2018-02-05 18:37:16

标签: deep-learning mpi

今天的MPI标准不容错。如果我们需要扩展或缩小,则需要重新启动整个工作负载。

有没有办法在不必重启的情况下处理缩放?这是深度学习训练场景。大多数DL框架今天都使用MPI。

2 个答案:

答案 0 :(得分:1)

我担心你会混合几个概念

  • agile是一种软件开发方法
  • Fault tolerance使系统能够在发生故障时继续运行。 MPI不具备容错能力,但有active working group解决此问题
  • 容错不能用于放大或缩小模拟。

您可能指的是Elasticity(如Amazon Elastic Compute Cloud中所述),这是必须在应用程序中构建的内容。通常,您的应用程序应该是可检查的,能够在不同数量的节点/任务上重新启动。这可能是可以实现的"在飞行中"但它有其他含义(如何通知应用程序或多或少的节点?)

答案 1 :(得分:0)

如今,有几个正在进行的项目涉及MPI延展性(在运行中改变流程数量)。

在这个article中,您将找到最新的艺术状态(据我所知)和应用程序中实现延展性的解决方案,因为到目前为止,它无法自动完成。

希望它有所帮助。