我正在使用群集来运行一份工作。在我的mpi启动命令中,我使用了-IBV(不是-ibv)选项,我认为这是使它使用Infiniband。
但是一些工作最终会自动杀死stderr中的错误消息,如下所示(一长串相同的消息,所以我只为每种类型复制一个):
ls-dyna_R9.2.0_s:等级0:11:MPI_Isend:722 dereg_trypin失败:id 0x0,0x7f0742de7694,1150916
ls-dyna_R9.2.0_s:等级0:11:MPI_Recv:722 dereg_trypin失败:id 0x0,0x7f0742de7694,1150916
ls-dyna_R9.2.0_s:等级0:11:MPI_Wait:722 dereg_trypin失败:id 0x0,0x7f0742de7694,1150916
然后最后以:
结束ls-dyna_R9.2.0_s:等级0:11:MPI_Wait:722 dereg_trypin失败:id 0x0,0x7f0742de7694,1150916
ls-dyna_R9.2.0_s:Rank 0:11:MPI_Wait:ln1313:ibv_reg_mr()失败: addr 0x7f0742de7694,len 1150916
ls-dyna_R9.2.0_s:Rank 0:11:MPI_Wait:内部MPI错误
如果我使用选项-TCP(不是-tcp),则不会对同一作业进行此操作。 我想解决问题,但我不明白错误信息,也不知道MPI有什么问题 任何人都可以提供一些建议吗?