Mpi4py代码不会停止运行

时间:2018-03-11 06:35:23

标签: python parallel-processing cluster-computing hpc mpi4py

我正在使用一个非常基本的python代码(文件名:test_mpi.py)来尝试使用mpi4py在python中进行并行编程。我想要做的是为所有条目设置一个带有零的二维numpy数组。然后使用群集中的特定处理器来增加numpy数组的特定元素的值。

具体来说,我有一个3 * 3的numpy矩阵(mat),其中所有元素都为零。我的代码完成运行后(跨多个处理器),我希望矩阵看起来像这样:

mat = [[ 1.  2.  3.]
       [ 4.  5.  6.]
       [ 7.  8.  9.]]

这是一个相当简单的任务,我希望我的代码能在几分钟内完成运行(如果不是更短的时间)。我的代码运行了很长时间并且没有停止执行(最终我必须在几小时后删除该作业。)

这是我的代码:

from __future__ import division
from mpi4py import MPI
import os
import time
import numpy as np

comm = MPI.COMM_WORLD
nproc = comm.Get_size()
rank = comm.Get_rank()

start_time = time.time()

mat = np.zeros((3,3))

comm.bcast([ mat , MPI.DOUBLE], root=0)


for proc in range(1, nproc):
    if rank == proc:
        print "I'm processor: ", rank
        var = proc
        comm.send( var, dest=0, tag = (proc*1000) ) 
        print "Processor: ", rank, " finished working."


if rank == 0:
    print "Hello! I'm the master processor, rank: ", rank 
    for i in range(0,dim):
        for j in range(0, dim):
            proc = ((i*j)+1)
            mat[i,j] += comm.recv(source=proc, tag=(proc*1000) )


     np.savetxt('mat.txt', mat) 



print time.time() - start_time

这是我执行此python代码的作业脚本:

#!/bin/sh

#PBS -l nodes=2:ppn=16
#PBS -N test_mpi4py
#PBS -m abe
#PBS -l walltime=168:00:00
#PBS -j eo
#PBS -q physics

cd $PBS_O_WORKDIR
export OMP_NUM_THREADS=16
export I_MPI_PIN=off
echo 'This job started on: ' `date`

/opt/intel/impi/2018.0.128/intel64/bin/mpirun -np 32 python test_mpi.py

我使用qsub jobscriptname.sh来运行作业脚本。我在这里错过了什么?我将在此感谢任何帮助。

1 个答案:

答案 0 :(得分:3)

您的代码未完成,因为某些MPI通信未完成。

MPI要求每次发送都应该只有一次接收。 您的第一个循环由每个MPI进程排名独立执行,条件rank == proc将为每个排名完全满足一次,但0排名除外,因此comm.send将被执行{{1}时间。您的第二个循环执行nproc - 1次。因此,dim * dim也将执行comm.recv次。除非dim*dim。该要求不会得到满足,一些nproc - 1 == dim * dimrecv操作将等待无限期完成。对于您的示例send,因此在超过预定时间之前通信将无法完成。

为了解决这个错误,让我们稍微澄清一下算法。因此,我们希望从1到9的每个等级负责3x3矩阵中的一个元素。每个流程排名31 != 9个帖子。通过进程等级0以特定顺序接收请求并将其存储在矩阵的对应元素中。如果他们可以使用其他队伍什么都不做。

让我们介绍三个变化:

  1. 初始化comm.send
  2. 的值
  3. 移动条件运算符,检查我们是否处于循环中的处理器等级0
  4. 修复对应于当前不正确的元素dim的等级的计算(例如,对于中心元素mat[i,j],等级应该是5,而不是1 * 1 + 1 = 2)< / LI>

    代码

    以下是修改后的内容:

    mat[1,1]

    输出

    这是输出:

    from __future__ import division
    from mpi4py import MPI
    import os
    import time
    import numpy as np
    
    comm = MPI.COMM_WORLD
    nproc = comm.Get_size()
    rank = comm.Get_rank()
    
    start_time = time.time()
    
    dim = 3
    mat = np.zeros((dim,dim))
    
    comm.bcast([ mat , MPI.DOUBLE], root=0)
    
    if rank > 0:
        if rank <= dim * dim:
            print "I'm processor: ", rank
            var = rank
            req = comm.send( var, dest=0, tag = (rank*1000) )
        print "Processor: ", rank, " finished working."
    else:
        print "Hello! I'm the master processor, rank: ", rank 
        for i in range(0,dim):
            for j in range(0, dim):
                proc = ((i*dim)+j)+1
                if proc < nproc:
                    mat[i,j] += comm.recv(source=proc, tag=(proc*1000) )
        np.savetxt('mat.txt', mat)
    

    将以下矩阵保存到mpirun -np 5 python mpi4.py

    mat.txt

    1.000000000000000000e+00 2.000000000000000000e+00 3.000000000000000000e+00
    4.000000000000000000e+00 0.000000000000000000e+00 0.000000000000000000e+00
    0.000000000000000000e+00 0.000000000000000000e+00 0.000000000000000000e+00
    

    将以下矩阵保存到mpirun -np 32 python mpi4.py

    mat.txt

    虽然10是产生正确结果的最小进程数量。