通过共享NFS驱动器在SLURM上运行MPI

时间:2018-05-21 12:12:48

标签: ubuntu mpi slurm

我已从头节点(node0)设置了NFS同步驱动器,并将此驱动器安装到我的工作节点(node1 ... node3)。我使用这个同步的驱动器作为"刮擦"用户通过SLURM运行他们的工作。另外,我用它来安装共享程序,例如MPICH 3.2,它是通过node0编译和安装的。

我注意到,当通过SLURM运行MPI作业时,只要node0是主机节点,就会执行作业。如果我将作业提交给其他节点(例如node2和node3,其中node2是主机),则作业不会执行。如何让它在其他节点上运行以释放头节点?

编辑:ff。如果通过SLURM运行,则为MPI作业的输出:

srun: error: timeout waiting for task launch, started 1 of 2 tasks
srun: Job step 4118.0 aborted before step completely launched.
srun: Job step aborted: Waiting up to 32 seconds for job step to finish.
slurmstepd: *** STEP 4118.0 ON node2 CANCELLED AT 2018-05-21T20:24:29 ***
srun: error: node2: task 0: Killed
[mpiexec@node2] control_cb (pm/pmiserv/pmiserv_cb.c:208): assert (!closed) failed
[mpiexec@node2] HYDT_dmxu_poll_wait_for_event (tools/demux/demux_poll.c:76): callback returned error status
[mpiexec@node2] HYD_pmci_wait_for_completion (pm/pmiserv/pmiserv_pmci.c:198): error waiting for event
[mpiexec@node2] main (ui/mpich/mpiexec.c:340): process manager

0 个答案:

没有答案