MPI检查点使用情况

时间:2016-04-04 02:53:49

标签: mpi checkpoint

我想利用MPI检查点功能来保存我的工作。根据{{​​3}}

的建议

我应该能够将SIGUSR1发送到mpiexec(在我的情况下,我将它发送到mpirun)来触发检查点。但是,当我这样做时,我没有看到我使用-ckpoint-prefix

指定的检查点目录中保存的任何文件

这是我的mpirun -info输出 HYDRA build details: Version: 4.1 Update 1 Release Date: 20130522 Process Manager: pmi Bootstrap servers available: ssh rsh fork slurm srun ll llspawn.stdio lsf blaunch sge qrsh persist jmi Resource management kernels available: slurm srun ll llspawn.stdio lsf blaunch sge qrsh pbs Checkpointing libraries available: blcr Demux engines available: poll select

我的命令行是:

mpirun -ckpointlib blcr -ckpoint-prefix /home/user/temp/ckpoint -ckpoint-interval 1800 -np 274 $PROGPATH/myapp

我发送信号的方式是kill -s USR1 1900,1900是miprun的pid。每当我发送信号时,程序就会结束。虽然没有崩溃。有没有人有MPI检查站的经验?

1 个答案:

答案 0 :(得分:0)

我想我明白了。我将USR1发送到mpirun,但我应该将它发送到mpiexec.hydra。尽管一些在线文章说mpirun和mpiexec是一回事。