OpenMPI容错

时间:2013-10-27 08:07:32

标签: mpi openmpi fault-tolerance

我有一个在OpenMPI应用程序中实现简单容错的任务。我们遇到的问题是,尽管将MPI错误处理设置为MPI_ERRORS_RETURN,但当我们的某个节点从群集中拔出时,我们会在长时间挂起后在下一个MPI_调用上收到以下错误:

[btl_tcp_endpoint.c:655:mca_btl_tcp_endpoint_complete_connect] connect() failed: Connection timed out (110)

我的看法是,当一个节点通过OpenMPI从网络中丢失时,无法继续在所有其他节点上进行处理。任何人都可以为我确认这个,或者指出我的方向是为了防止btl_tcp_endpoint错误吗?

我们使用的是OpenMPI版本1.6.5。

1 个答案:

答案 0 :(得分:3)

MPI_ERRORS_RETURN代码路径在Open MPI中未经过充分测试(可能没有很好地实现)。它们根本不是优先事项,因此我们从未在这方面做过太多工作。

对不起。