所以......我的问题很简单。
假设我们有一个主MPI进程,其master_array为6 * 6个单元格:
Master
-----------
0 0 0 0 0 0
0 0 0 0 0 0
0 0 0 0 0 0
0 0 0 0 0 0
0 0 0 0 0 0
0 0 0 0 0 0
我们有4个工人MPI进程,其worker_array为3 * 3个单元格。
Worker 1 | Worker 2 | Worker 3 | Worker 4 |
------- | ------- | ------- | ------- |
1 1 1 | 2 2 2 | 3 3 3 | 4 4 4 |
1 1 1 | 2 2 2 | 3 3 3 | 4 4 4 |
1 1 1 | 2 2 2 | 3 3 3 | 4 4 4 |
现在,我想将worker数组发送到主数组,如下所示:
Master
-----------
1 1 1 2 2 2
1 1 1 2 2 2
1 1 1 2 2 2
3 3 3 4 4 4
3 3 3 4 4 4
3 3 3 4 4 4
如何使用某种MPI发送/接收,MPI_datatypes或MPI_vectors或MPI_subarrays或MPI_whatever-the-trick-it来结束这个?
我希望你明白我的意思。
详细而有效的代码答案将深受赞赏。
答案 0 :(得分:1)
这是一个使用点对点和集合的工作代码(集合版本在下面注释掉,但工作正常)。您需要定义向量类型以对应主站上接收侧的非连续数据。要使用集合集合,您需要弄乱这个向量的大小以确保聚集将所有部分放在正确的位置,并且您需要使用gatherv版本。
很容易弄清楚数组索引,所以为了一般性我在6x12矩阵上使用了2x3进程数组,因此故意不是正方形。
为混乱的缩进道歉 - 我似乎有一些标签/空间问题,我真的应该在将来解决这个问题!
#include <stdio.h>
#include <stdlib.h>
#include <mpi.h>
#define M 6
#define N 12
#define MP 2
#define NP 3
#define MLOCAL (M/MP)
#define NLOCAL (N/NP)
#define TAG 0
int main(void)
{
int master[M][N];
int local[MLOCAL][NLOCAL];
MPI_Comm comm = MPI_COMM_WORLD;
int rank, size, src;
int i, j;
int istart, jstart;
int displs[MP*NP], counts[MP*NP];
MPI_Status status;
MPI_Request request;
MPI_Datatype block, blockresized;
MPI_Init(NULL, NULL);
MPI_Comm_size(comm, &size);
MPI_Comm_rank(comm, &rank);
if (size != MP*NP)
{
if (rank == 0) printf("Size %d not equal to MP*NP = %d\n", size, MP*NP);
MPI_Finalize();
return 1;
}
for (i=0; i < M; i++)
{
for (j=0; j < N; j++)
{
master[i][j] = rank;
}
}
for (i=0; i < MLOCAL; i++)
{
for (j=0; j < NLOCAL; j++)
{
local[i][j] = rank+1;
}
}
// Define vector type appropriate for subsections of master array
MPI_Type_vector(MLOCAL, NLOCAL, N, MPI_INT, &block);
MPI_Type_commit(&block);
// Non-blocking send to avoid deadlock with rank 0 sending to itself
MPI_Isend(local, MLOCAL*NLOCAL, MPI_INTEGER, 0, TAG, comm, &request);
// Receive from all the workers
if (rank == 0)
{
for (src=0; src < size; src++)
{
// Find out where this block should go
istart = (src/NP) * MLOCAL;
jstart = (src%NP) * NLOCAL;
// receive a single block
MPI_Recv(&master[istart][jstart], 1, block, src, TAG, comm, &status);
}
}
// Wait for send to complete
MPI_Wait(&request, &status);
/* comment out collective
// Using collectives -- currently commented out!
MPI_Type_create_resized(block, 0, sizeof(int), &blockresized);
MPI_Type_commit(&blockresized);
// Work out displacements in master in counts of integers
for (src=0; src < size; src++)
{
istart = (src/NP) * MLOCAL;
jstart = (src%NP) * NLOCAL;
displs[src] = istart*N + jstart;
counts[src] = 1;
}
// Call collective
MPI_Gatherv(local, MLOCAL*NLOCAL, MPI_INT,
master, counts, displs, blockresized,
0, comm);
*/
// Print out
if (rank == 0)
{
for (i=0; i < M; i++)
{
for (j=0; j < N; j++)
{
printf("%d ", master[i][j]);
}
printf("\n");
}
}
MPI_Finalize();
}
似乎在6个流程上正常工作:
mpiexec -n 6 ./arraygather
1 1 1 1 2 2 2 2 3 3 3 3
1 1 1 1 2 2 2 2 3 3 3 3
1 1 1 1 2 2 2 2 3 3 3 3
4 4 4 4 5 5 5 5 6 6 6 6
4 4 4 4 5 5 5 5 6 6 6 6
4 4 4 4 5 5 5 5 6 6 6 6
这应该适用于矩阵完全分解到过程网格上的任何情况。如果这些过程并非都具有完全相同的子矩阵大小,那么它会有点复杂。