作业之一终止时如何继续执行mpiexec

时间:2019-07-08 17:40:41

标签: python mpi4py mpiexec ms-mpi

我在集群中运行图像处理python代码。我正在使用带有mpi4py的ms-mpi进行进程间通信。有时,其中一个python进程会随机终止为“ 0xc0000005”(我猜是空指针异常)。

job aborted:                                                        
[ranks] message                                                     

[0] terminated                                                      

[1] process exited without calling finalize                         

[2-35] terminated                                                   

---- error analysis -----                                           

[1] on clusternode-02                                               
python ended prematurely and may have crashed. exit code 0xc0000005 

我很确定它与我使用的opencv一起发生,但完全是随机发生的。我重新启动所有作业,并且同一主机处理相同的作业就好了。因此,要解决此问题而不处理调试python&opencv,我将减少当前正在运行的任务的可用进程数,重新计划失败的作业并继续。因此,问题是:当一项作业终止而没有完全停止mpiexec时,是否可以继续所有其他作业?

谢谢

0 个答案:

没有答案