我想利用MPI检查点功能来保存我的工作。根据{{3}}
的建议我应该能够将SIGUSR1发送到mpiexec(在我的情况下,我将它发送到mpirun)来触发检查点。但是,当我这样做时,我没有看到我使用-ckpoint-prefix
指定的检查点目录中保存的任何文件这是我的mpirun -info输出
HYDRA build details:
Version: 4.1 Update 1
Release Date: 20130522
Process Manager: pmi
Bootstrap servers available: ssh rsh fork slurm srun ll llspawn.stdio lsf blaunch sge qrsh persist jmi
Resource management kernels available: slurm srun ll llspawn.stdio lsf blaunch sge qrsh pbs
Checkpointing libraries available: blcr
Demux engines available: poll select
我的命令行是:
mpirun -ckpointlib blcr -ckpoint-prefix /home/user/temp/ckpoint -ckpoint-interval 1800 -np 274 $PROGPATH/myapp
我发送信号的方式是kill -s USR1 1900
,1900是miprun的pid。每当我发送信号时,程序就会结束。虽然没有崩溃。有没有人有MPI检查站的经验?
答案 0 :(得分:0)
我想我明白了。我将USR1发送到mpirun,但我应该将它发送到mpiexec.hydra。尽管一些在线文章说mpirun和mpiexec是一回事。