如何修复此MPI代码程序

时间:2011-06-28 09:43:10

标签: debugging mpi

这个程序演示了一个不安全的程序,因为有时候它会执行得很好,有时它会失败。程序失败或挂起的原因是由于MPI库为特定大小的消息实现了急切协议的方式,接收任务端的缓冲区耗尽。一种可能的解决方案是在发送和接收循环中包含MPI_Barrier调用。

它的程序代码是如何正确的?

#include "mpi.h"
#include <stdio.h>
#include <stdlib.h>

#define MSGSIZE 2000

int main (int argc, char *argv[])
{
int        numtasks, rank, i, tag=111, dest=1, source=0, count=0;
char       data[MSGSIZE];
double     start, end, result;
MPI_Status status;

MPI_Init(&argc,&argv);
MPI_Comm_size(MPI_COMM_WORLD, &numtasks);
MPI_Comm_rank(MPI_COMM_WORLD, &rank);

if (rank == 0) {
  printf ("mpi_bug5 has started...\n");
  if (numtasks > 2) 
    printf("INFO: Number of tasks= %d. Only using 2 tasks.\n", numtasks);
  }

/******************************* Send task **********************************/
if (rank == 0) {

  /* Initialize send data */
  for(i=0; i<MSGSIZE; i++)
     data[i] =  'x';

  start = MPI_Wtime();
  while (1) {
    MPI_Send(data, MSGSIZE, MPI_BYTE, dest, tag, MPI_COMM_WORLD);
    count++;
    if (count % 10 == 0) {
      end = MPI_Wtime();
      printf("Count= %d  Time= %f sec.\n", count, end-start);
      start = MPI_Wtime();
      }
    }
  }

/****************************** Receive task ********************************/

if (rank == 1) {
  while (1) {
    MPI_Recv(data, MSGSIZE, MPI_BYTE, source, tag, MPI_COMM_WORLD, &status);
    /* Do some work  - at least more than the send task */
    result = 0.0;
    for (i=0; i < 1000000; i++) 
      result = result + (double)random();
    }
  }

MPI_Finalize();
}

1 个答案:

答案 0 :(得分:1)

如何改进此代码,以便接收方不会以无限数量的unexpected messages结束,包括:

  • 同步 - 您提到了MPI_Barrier,但即使使用MPI_Ssend而不是MPI_Send也可以。
  • 显式缓冲 - 使用MPI_Bsend或Brecv确保存在足够的缓冲。
  • 已发布接收 - 接收进程在开始工作之前发布IRecvs,以确保将消息接收到用于保存数据的缓冲区中,而不是系统缓冲区。

在这个教学案例中,由于消息数量不受限制,只有第一个(同步)才能可靠地工作。