我正在使用nohup和OpenMPI运行我的程序:
nohup mpirun -np 48 -machinefile temp ./myProgram &
几个小时后我收到了这个错误:
--------------------------------------------------------------------------
mpirun noticed that process rank 18 with PID 5445 on node fenix2 exited on signal 1 (Hangup).
--------------------------------------------------------------------------
它随机出现在随机节点中。我为所有跑步使用相同的种子。如果我在Windows中使用Microsoft HPC MPI运行相同的应用程序,那么它可以正常工作。
为了避免这个错误,你能做些什么吗?
谢谢!