C MPI - 没有明显原因崩溃 - 程序收到信号SIGSEGV

时间:2014-07-05 13:05:47

标签: c debugging mpi

我正在使用MPICH2 1.0.6在Linux集群中运行程序(我实际上无法将其更新为MPICH3,因此我坚持使用该版本)并且没有明显的原因该程序没有执行。

我使用mpicc -o prog prog.c -lm编译它并使用mpiexec

执行

该程序是使用向量空间模型的分层凝聚聚类算法的实现。数据集合是n*m数组(在程序DOC*MAXWORDS中),它被分为集群的节点,如PARTS=DOC/procs,因此每个节点都负责PARTS*MAXWORDS数据。

在使用gdb和ddd在串行机器中进行调试时,我发现程序在代码的特定行中存在分段错误,我无法找到它的错误。看一看。

while(iterations != DOC-k){//bigLoop

    iterations++;

    x=y=-1;
    pos1=pos2=node1=node2=-1;

    for(i=0;i<PARTS;i++){//ELEGXOS MEGISTOU TOPIKA
        if(max_array[i]>x){
            x=max_array[i];
            pos1=i;  
        }
        else if(max_array[i]==x){
            pos2=i;
        } //ELEGXOS META TO LOOP GIA OMOIOTHTES
    }

    if(max_array[pos1]!=max_array[pos2]){
        for(i=0;i<PARTS;i++){
            if(max_array[i]>max_array[pos2] && i!=pos1)
                pos2=1;
        }
    }

    if(MPI_Allgather(&x,1,MPI_DOUBLE,
            n_max,1,MPI_DOUBLE,MPI_COMM_WORLD) != MPI_SUCCESS) {
        printf("Allgather high valuer - error");
        exit(1);
    }

    for(i=0;i<procs;i++){
        if(n_max[i]>y){
           y=n_max[i];
           node1=i;
        }
        else if(n_max[i]==y){
            node2=i;
        }
    }
    for(i=0;i<MAXWORDS;i++){
        merger_one[i]=merger_two[i]=0;    
    }

    if(n_max[node1]==n_max[node2]){

        if(id==node1){
            for(i=0;i<MAXWORDS;i++){
                merger_one[i]=vector[node1*PARTS+pos1][i];
                last_one[i]=vector[(node1*PARTS)+texts_vectors[node1]][i];
             }
             size_one=size_of[pos1];

             nn_array[pos1]=nn_array[texts_vectors[node1]];
             max_array[pos1]=max_array[texts_vectors[node1]];
             size_of[pos1]=size_of[texts_vectors[node1]];
             texts_vectors[node1]--;
        }
        if(id==node2){
            for(i=0;i<MAXWORDS;i++){
                merger_two[i]=vector[node2*PARTS+pos2][i];
                last_two[i]=vector[(node2*PARTS)+texts_vectors[node2]][i];
            }

            j=pos2;
            pos2=pos1;
            pos1=j;

            size_two=size_of[pos2];

            nn_array[pos2]=nn_array[texts_vectors[node2]];
            max_array[pos2]=max_array[texts_vectors[node2]];
            size_of[pos2]=size_of[texts_vectors[node2]];
            texts_vectors[node2]--;
        }
    }
    else{

        node2=node1;

        if(id==node1){

            for(i=0;i<MAXWORDS;i++){

                merger_one[i]=vector[node1*PARTS+pos1][i];
                merger_two[i]=vector[node2*PARTS+pos2][i];

                last_one[i]=vector[(node1*PARTS)+texts_vectors[node1]][i];/*SIGSEV ERROR*/
                last_two[i]=vector[(node2*PARTS)+texts_vectors[node2]-1][i];

            }

            size_one=size_of[pos1];
            size_two=size_of[pos2];

            nn_array[pos1]=nn_array[texts_vectors[node1]];
            max_array[pos1]=max_array[texts_vectors[node1]];
            size_of[pos1]=size_of[texts_vectors[node1]];


            nn_array[pos2]=nn_array[texts_vectors[node2]-1];
            max_array[pos2]=max_array[texts_vectors[node2]-1];
            size_of[pos2]=size_of[texts_vectors[node2]-1];    

            texts_vectors[node1]=texts_vectors[node1]-2;
        }  
    }
    MPI_Bcast(&pos1, 1, MPI_INT,node1, MPI_COMM_WORLD);
    MPI_Bcast(&pos2, 1, MPI_INT,node2, MPI_COMM_WORLD);
    MPI_Bcast(&size_one, 1, MPI_INT,node1, MPI_COMM_WORLD);
    MPI_Bcast(&size_two, 1, MPI_INT,node2, MPI_COMM_WORLD);
    MPI_Bcast(merger_one, MAXWORDS, MPI_INT,node1, MPI_COMM_WORLD);
    MPI_Bcast(merger_two, MAXWORDS, MPI_INT,node2, MPI_COMM_WORLD);
    MPI_Bcast(last_one, MAXWORDS, MPI_INT,node1, MPI_COMM_WORLD);
    MPI_Bcast(last_two, MAXWORDS, MPI_INT,node2, MPI_COMM_WORLD);
    MPI_Allgather(&texts_vectors,1,MPI_INT,texts_vectors,1,MPI_INT,MPI_COMM_WORLD);

    for(i=0;i<MAXWORDS;i++){
        vector[node1*PARTS+pos1][i]=last_one[i];
        vector[node2*PARTS+pos2][i]=last_two[i];
    }

    Pmanager=PARTS+1;

    for(i=0;i<procs;i++){
        if(texts_vectors[i]<Pmanager)
        Pmanager=i;
    }

    texts_vectors[Pmanager]++;



    for(i=0;i<MAXWORDS;i++){
            x=merger_one[i]*size_one;
            y=merger_two[i]*size_two;

            vector[Pmanager*PARTS+texts_vectors[Pmanager]][i]=(x+y)/(size_one + size_two);
    }

    for(i=id*PARTS; i< (id+1)*texts_vectors[id]; i++){
       for(j=0;j<procs;j++){
           for(m=j*PARTS;m<j*PARTS+texts_vectors[j];m++){
               x=0;y=0;z=0;
               for(l=0; l < MAXWORDS; l++){
                   x+=vector[i][l]*vector[m][l];
                   y+=vector[i][l]*vector[i][l];
                   z+=vector[m][l]*vector[m][l];
               }
               if(i!=m){
                   if(y!=0 && z!=0){
                       sim_matrix[i-(PARTS*id)][m] = x / (sqrt(y) * sqrt(z) );
                   }
                   else{
                       sim_matrix[i-(PARTS*id)][m] = 0.0;
                   }
               }
           }
       }
   }
    for(i=0; i<texts_vectors[id]; i++){
        x=0.0;
        for(j=0;j<DOC;j++){
            if(sim_matrix[i][j]>x){
                nn_array[i]=j;
                max_array[i]=x=sim_matrix[i][j];
            }
        }
    }
}

在此之前,已创建数组并将数据输入vector[i][j]

我使用malloc:

创建了数组
int **vector = malloc(DOC * sizeof *vector);
for (i = 0; i < DOC; i++){
    vector[i] = malloc(MAXWORDS * sizeof **vector);
}
double **sim_matrix = malloc(PARTS * sizeof *sim_matrix);
for (i = 0; i < PARTS; i++)
    sim_matrix[i] = malloc(DOC * sizeof **sim_matrix);

int *list = malloc(WHOLE * sizeof(int));

int *nn_array = malloc(PARTS * sizeof(int));

double *max_array = malloc(PARTS * sizeof(double));

int *size_of = malloc(PARTS * sizeof(int));

double *n_max = malloc(procs * sizeof(double));

int *texts_vectors = malloc(procs * sizeof(int));

int *merger_one = malloc(MAXWORDS * sizeof(int));

int *merger_two = malloc(MAXWORDS * sizeof(int));

int *last_one = malloc(MAXWORDS * sizeof(int));

int *last_two = malloc(MAXWORDS * sizeof(int));

问题仍然存在的行:last_one[i]=vector[(node1*PARTS)+texts_vectors[node1]][i];/*SIGSEV ERROR*/也在if-loop if(n_max[node1]==n_max[node2]){的第一部分执行,但在这种情况下没有错误。

对此问题感到有点怀疑的唯一问题是texts_vectors[i]数组,该数组不断计算当前位于节点内的vector[i][j]类型数据的数量。但即便如此,我认为我已经覆盖了它。

我真的希望有人可以看看这个因为它真的令人沮丧而且需要做。

如果您对所发生的事情有了更好的了解并希望查看整个代码,i pasted it into a pastezone.请提前致谢并提前致谢。

编辑:

因为事实证明我通过数组text_vectors传递的值超出了数组的边界。由于该值给出了最大值,对于数组中的实际最后位置,我应该减去1.所以就是这样,串行gdb和ddd中没有分段错误。但是这个程序现在不能运行2个以上的节点。如果我在4&gt;中执行它节点崩溃。

1 个答案:

答案 0 :(得分:2)

此行中有多个错误:

MPI_Allgather(&texts_vectors,1,MPI_INT,texts_vectors,1,MPI_INT,MPI_COMM_WORLD);

首先,您将提供指向数据指针的指针,作为“收集到所有”操作的第一个参数。因此,每个等级传输的值不是text_vectors的第一个元素,而是数据的存储器地址(或64位小端LP64系统上的地址的下半部分)。

其次,如果你通过从第一个参数的开头删除地址关闭运算符&来解决这个问题,那么你将遇到另一个问题。 MPI标准不允许MPI_Allgather中的源缓冲区和目标缓冲区重叠。一些MPI实现不强制执行该要求,并默默地执行 The Right Thing(TM)。其他一些MPI实现将尝试使用memcpy复制数据并遇到C库的问题(memcpy不允许重叠缓冲区)。最后,一些MPI实现将为您提供有关重叠缓冲区和终止程序的错误消息。

由于您要发送一个整数元素,只需将该值复制到临时变量中,并将其地址用作第一个参数。