标签: mpi distributed-computing apache-zookeeper distributed-system fault-tolerance
我正在尝试修改基于MPI的系统以添加容错(如果机器停机,则应继续进行)。
我在考虑使用Apache Zookeeper来处理机器故障情况。这是继续前进的最佳方式吗?此外,使用Zookeeper时,MPI调用(如发送,接收,广播)会发生什么? MPI中的发送/接收呼叫通常绑定到机器ID(源/目的地);现在,在机器出现故障并且可能永远不会回来的环境中,它将如何运作?
将现有应用程序从MPI移植到基于Zookeeper的解决方案会导致性能下降吗?