我在集群中运行图像处理python代码。我正在使用带有mpi4py的ms-mpi进行进程间通信。有时,其中一个python进程会随机终止为“ 0xc0000005”(我猜是空指针异常)。
job aborted:
[ranks] message
[0] terminated
[1] process exited without calling finalize
[2-35] terminated
---- error analysis -----
[1] on clusternode-02
python ended prematurely and may have crashed. exit code 0xc0000005
我很确定它与我使用的opencv一起发生,但完全是随机发生的。我重新启动所有作业,并且同一主机处理相同的作业就好了。因此,要解决此问题而不处理调试python&opencv,我将减少当前正在运行的任务的可用进程数,重新计划失败的作业并继续。因此,问题是:当一项作业终止而没有完全停止mpiexec时,是否可以继续所有其他作业?
谢谢