即使使用nohup,OpenMPI进程也会被终止

时间:2014-09-04 01:16:57

标签: parallel-processing openmpi nohup

我正在使用nohup和OpenMPI运行我的程序:

nohup mpirun -np 48 -machinefile temp ./myProgram &

几个小时后我收到了这个错误:

--------------------------------------------------------------------------
mpirun noticed that process rank 18 with PID 5445 on node fenix2 exited on signal 1 (Hangup).
--------------------------------------------------------------------------

它随机出现在随机节点中。我为所有跑步使用相同的种子。如果我在Windows中使用Microsoft HPC MPI运行相同的应用程序,那么它可以正常工作。

为了避免这个错误,你能做些什么吗?

谢谢!

0 个答案:

没有答案