以下代码使用双指针malloc
方法创建Matrix [m] [n],并使用非阻塞MPI函数向每个n-1
处理器发送相等数量的矩阵块。处理器P=0
负责生成矩阵并发送它们,使P != 0
处理器中的每一个都接收一组行并处理它们。
即使我花了好几天确保每一行都是正确的,但我不知道错误来自哪里:(我感谢您的帮助。
#include <stdio.h>
#include <string.h>
#include <time.h>
#include "mpi.h"
int main (int argc, char* argv[]) {
const int RANK_0 = 0; // Rank 0
const int ROWS = 24; // Row size
const int COLS = 12; // Column size
const int TAG_0 = 0; // Message ID
const int TAG_0 = 0; // Message ID
int rank; // The process ID
int P; // Number of Processors
/* MPI Initialisation */
MPI_Init(&argc, &argv);
MPI_Comm_rank(MPI_COMM_WORLD, &rank);
MPI_Comm_size(MPI_COMM_WORLD, &P);
/* Each client processor receives ROWS/P set of arrays */
if(rank != RANK_0){
int i,j;
int chunckSize= ROWS/P;
MPI_Request *req[chunckSize]; // Requests
MPI_Request *req1[chunckSize]; // Requests
MPI_Status status[chunckSize];
int ptr[chunckSize];
int **buffRecv= malloc(chunckSize * sizeof(int *));
for (i = 0; i < chunckSize ; i++) {
buffRecv[i] = malloc(COLS * sizeof(int));
MPI_Irecv(&ptr[i], 1, MPI_INT, RANK_0, TAG_1, MPI_COMM_WORLD, req1[i]);
MPI_Irecv(buffRecv[i], COLS, MPI_INT, RANK_0, TAG_0, MPI_COMM_WORLD, req[i]);
MPI_Wait(req1[i], MPI_STATUSES_IGNORE);
MPI_Wait(req[i], MPI_STATUSES_IGNORE);
}
printf("\n ===> Processor %d has recieved his set of rows, now start calculation: \n", rank);
for(i = 0; i< chunckSize; i++){
// print arrays row by row or do something
}
printf("\n Rank %d has done its tasks \n", rank);
}
else
{
/* MASTER PROCESS*/
int n=0;
int k,i,j,dest,offset;
int inc=1;
MPI_Request *req[ROWS]; // Requests
MPI_Request *req1[ROWS]; // Requests
int chunkSize= ROWS/P;
int **buf= malloc(ROWS * sizeof(int *));
offset = chunkSize;
for(dest = P; dest >= 0; dest--){
// ROWS/P rows to each destination
for (i = n; i < offset; i++)
{
buf[i] = malloc(COLS * sizeof(int));
for (j = 0; j < COLS; j++)
{
buf[i][j]=1;
}
if(dest == 0)
{
// rank_0 chunk will be handled here
}
else
{
MPI_Isend(&i, 1, MPI_INT, dest, TAG_1, MPI_COMM_WORLD, req1[i]);
MPI_Isend(buf[i], COLS, MPI_INT, dest, TAG_0, MPI_COMM_WORLD, req[i]);
}
}
// Print the result after each ROWS/P rows is sent
if(dest != 0){
printf("Row[%d] to Row[%d] is sent to rank# %d\n", n, k, dest);
}
n=offset;
offset= offset + chunkSize;
}
}
MPI_Finalize();
}
答案 0 :(得分:1)
此代码中存在许多问题,我稍后会尝试枚举。但我认为最重要的一点是所请求的发送从不等待,并从一个目的地重新利用到另一个目的地。这是非常错误的,因为没有测试或等待点,所以发送动作可能永远不会发生。 我现在就把它留给你,然后慢慢编辑我的答案。
编辑: 好的,现在让我们一步一步地进步:
内存管理:由于您计划将数据块分发到您的进程,因此最好最大化每次传输的大小,从而最大限度地减少传输次数。但是要一次性传输矩阵的几行,您需要将数据连续存储在内存中。要在保持[i][j]
双括号访问简单性的同时实现这一点,您需要:首先分配数据所需的整个存储,然后分配指向此数据的指针,您将指出每行的每个起始索引......这将如下所示:
int **matrix = malloc( ROWS * sizeof( int* ) );
matrix[0] = malloc( COLS * ROWS * sizeof( int ) );
for ( int i = 1; i < ROWS; i++ ) {
matrix[i] = matrix[i-1] + COLS;
}
这远非主要问题,但这是另一个好时机。
请求问题:如前所述,您的发送请求未等待,这是错误的。在您使用MPI_Wait()
或MPI_Waitall()
等待,或者使用其中一个MPI_Testxxx()
函数对其进行充分检查之后,才会完成MPI交易。最简单的是使用MPI_Waitall()
流程#0怎么样?它发送给自己,但它永远不会收到发送的内容......
我没有检查块大小和偏移量,但我很确定如果进程数没有划分行数,那么你将会是陷入困境。
最后(希望如此),您在此处尝试做的事情非常类似于MPI_Scatter()
或可能MPI_Scatterv()
。既然你的记忆是线性存储的,那么看看它就应该解决你的问题。
希望这有帮助。