我正在运行一个并行应用程序,它运行正常,直到突然中止,从几个核心进行以下按摩:
[n18:mpi_rank_91][handle_cqe] Send desc error in msg to 103, wc_opcode=0
[n18:mpi_rank_91][handle_cqe] Msg from 103: wc.status=12, wc.wr_id=0xbc8d140, wc.opcode=0, vbuf->phead->type=0 = MPIDI_CH3_PKT_EAGER_SEND
[n18:mpi_rank_91][handle_cqe] src/mpid/ch3/channels/mrail/src/gen2/ibv_channel_manager.c:587: [] Got completion with error 12, vendor code=0x81, dest rank=103 : Numerical result out of range (34)
我是MPI使用/调试的新手。我的搜索没有得出明确的结论(即https://software.intel.com/en-us/node/535587);以上按摩是指什么?如何通过这样的按摩找到并行(Fortran)代码中的错误?
后续问题:如果我的应用程序有一个内部重块,哪个部分节点花费了越来越多的时间,完成任务的节点可以在接口之前等待较慢的节点多长时间遇到了Infiniband
拥堵?