应用错误收集

有没有办法让MPI实现敏捷？

时间：2018-02-05 18:37:16

标签： deep-learning mpi

今天的MPI标准不容错。如果我们需要扩展或缩小，则需要重新启动整个工作负载。

有没有办法在不必重启的情况下处理缩放？这是深度学习训练场景。大多数DL框架今天都使用MPI。

2 个答案:

答案 0 :(得分：1)

我担心你会混合几个概念

agile是一种软件开发方法
Fault tolerance使系统能够在发生故障时继续运行。 MPI不具备容错能力，但有active working group解决此问题
容错不能用于放大或缩小模拟。

您可能指的是Elasticity（如Amazon Elastic Compute Cloud中所述），这是必须在应用程序中构建的内容。通常，您的应用程序应该是可检查的和，能够在不同数量的节点/任务上重新启动。这可能是可以实现的＆＃34;在飞行中＆＃34;但它有其他含义（如何通知应用程序或多或少的节点？）

答案 1 :(得分：0)

如今，有几个正在进行的项目涉及MPI延展性（在运行中改变流程数量）。

在这个article中，您将找到最新的艺术状态（据我所知）和应用程序中实现延展性的解决方案，因为到目前为止，它无法自动完成。

希望它有所帮助。