MPI_Wait:内部MPI错误,在我的集群中可能导致这种情况的原因是什么?

时间:2017-12-15 04:01:48

标签: mpi

我正在使用群集来运行一份工作。在我的mpi启动命令中,我使用了-IBV(不是-ibv)选项,我认为这是使它使用Infiniband。

但是一些工作最终会自动杀死stderr中的错误消息,如下所示(一长串相同的消息,所以我只为每种类型复制一个):

  

ls-dyna_R9.2.0_s:等级0:11:MPI_Isend:722 dereg_trypin失败:id   0x0,0x7f0742de7694,1150916

     

ls-dyna_R9.2.0_s:等级0:11:MPI_Recv:722 dereg_trypin失败:id   0x0,0x7f0742de7694,1150916

     

ls-dyna_R9.2.0_s:等级0:11:MPI_Wait:722 dereg_trypin失败:id   0x0,0x7f0742de7694,1150916

     

然后最后以:

结束      

ls-dyna_R9.2.0_s:等级0:11:MPI_Wait:722 dereg_trypin失败:id   0x0,0x7f0742de7694,1150916

     

ls-dyna_R9.2.0_s:Rank 0:11:MPI_Wait:ln1313:ibv_reg_mr()失败:   addr 0x7f0742de7694,len 1150916

     

ls-dyna_R9.2.0_s:Rank 0:11:MPI_Wait:内部MPI错误

如果我使用选项-TCP(不是-tcp),则不会对同一作业进行此操作。 我想解决问题,但我不明白错误信息,也不知道MPI有什么问题 任何人都可以提供一些建议吗?

0 个答案:

没有答案