矩阵乘法使用MPI(在C中)代码不能工作超过6个节点

时间:2016-01-07 04:12:35

标签: c matrix mpi multiplication

我试图用MPI编写C程序,主进程制作两个2D数组。

第一个Matrix(称为A)的行分布到所有从属节点(使用MPI_Scatter),第二个矩阵(称为B)复制到所有从属节点(使用MPI_Bcast)。

矩阵A的行被复制到另一个一维阵列中并乘以A和矩阵B的行。乘法的结果使用MPI_Gather聚集在第三个2D阵列(称为C)中。

当我输入4或5个节点以及4 * 4或5 * 5大小的数组时,它工作正常。 例如,当我输入像

这样的命令时,它工作正常
$mpiexec -n 5 -f machinefile ./mpi_test3 5

( - >第二个5的含义是数组的大小。它表示两个5 * 5矩阵的乘法。)

但是当我输入超过6个节点和6 * 6大小时它没有用。 例如,

$mpiexec -n 6 -f machinefile ./mpi_test3 6

我的代码喜欢这个。

#include <stdio.h>
#include <stdlib.h>
#include <mpi.h>
#include <time.h>
     int main(int argc, char* argv[])
     {
       int i, j, k,m, ran, size, myrank, nprocs;
       int a[size][size], b[size][size], c[size][size],ar[size],cr[size];
       ran=10;
       size= atoi(argv[1]);
       MPI_Init(&argc,&argv);
       MPI_Comm_size(MPI_COMM_WORLD, &nprocs);
       MPI_Comm_rank(MPI_COMM_WORLD, &myrank);
    //Initialization of Receive Buffer
       for(i=0;i<size;++i){
            cr[i]=0;
       }
    // make random values and put it into the two Matrix
    if(myrank==0){
         srand((unsigned)time(NULL));
         for(i=0; i<size; ++i)
         {
              for(j=0; j<size; ++j)
              {
                     a[i][j]= rand()%ran+1;
                     b[i][j]= rand()%ran+1;
              }
         }

     }
    //MPI SCATTER & BROAD CAST
    MPI_Scatter(a,size,MPI_INT,&ar,size,MPI_INT,0,MPI_COMM_WORLD);
    MPI_Bcast(b,size*size,MPI_INT,0,MPI_COMM_WORLD);
    for(i=0;i<size;i++)
    {
            for(j=0;j<size;++j)
            {
                    cr[i]+=ar[j]*b[j][i];
            }
    }
    MPI_Gather(cr,size,MPI_INT,c,size,MPI_INT,0,MPI_COMM_WORLD);
    //Print the Result of Multiplication
   if(myrank==0){
     printf("\t Result of Multiplication \n");
     for(i=0; i<size; ++i){
            for(j=0; j<size; ++j)
            {
                    printf("%d  ",c[i][j]);
            }
            printf("\n");
     }
}

    MPI_Finalize();
return 0;
}

我的机器文件就像这样。

clus15:2
clus16:2
clus17:2
clus18:2

我的代码有什么问题?

1 个答案:

答案 0 :(得分:1)

在定义数组之前需要定义大小。

 int a[size][size], b[size][size], c[size][size],ar[size],cr[size];

此时,size是一个未定义的变量,并且在函数进入之前,这些数组在堆栈上分配。

int a[atoi(argv[1])][atoi(argv[1])]...,cr[atoi(argv[1])];

另外,要知道并非所有编译器都支持在函数中初始化具有可变大小的数组。

或者,您也可以通过以下方式动态分配这些数组:

int **a, **b, **c, **ar, *cr;
/* Be sure to check return value of malloc after each call */
a = malloc(sizeof(*a)*size);
b = malloc(sizeof(*b)*size);  
c = malloc(sizeof(*c)*size);
ar = malloc(sizeof(*ar)*size);
cr = malloc(sizeof(*cr)*size);
/* Be sure to check return value of malloc after each call */
for (int i = 0 ; i < size ; i++)
     a[i] = malloc(sizeof(**a)*size)
     b[i] = malloc(sizeof(**b)*size)
     c[i] = malloc(sizeof(**c)*size)
     ar[i] = malloc(sizeof(**ar)*size)

目前,您处于未定义行为的范围,因为数组实际上并未使用您想要的大小进行初始化,而是使用非确定性值在初始化之前保留大小。

尝试

printf("Size of cr: %d\n", (sizeof(cr)/sizeof(cr[0]));

在main函数中,查看数组大小是否等于你输入的参数。