如何为现有的基于MPI的系统添加容错支持,以便即使在机器出现故障后系统也能继续运行?

时间:2015-07-10 17:46:07

标签: mpi distributed-computing apache-zookeeper distributed-system fault-tolerance

我正在尝试修改基于MPI的系统以添加容错(如果机器停机,则应继续进行)。

我在考虑使用Apache Zookeeper来处理机器故障情况。这是继续前进的最佳方式吗?此外,使用Zookeeper时,MPI调用(如发送,接收,广播)会发生什么? MPI中的发送/接收呼叫通常绑定到机器ID(源/目的地);现在,在机器出现故障并且可能永远不会回来的环境中,它将如何运作?

将现有应用程序从MPI移植到基于Zookeeper的解决方案会导致性能下降吗?

0 个答案:

没有答案