如何在外部进程中调试MPI函数(MPICH)?

时间:2018-05-23 01:24:21

标签: debugging mpi mpich

我正在用其他方法替换在MPI功能中工作的POSIX,但在调试外部进程时遇到问题。 我在MPI库(hydra)中更改来自 utils / sock / sock.c 的函数

HYDU_sock_write //changing the source code 
HYDU_sock_read  //changing the source code

HYD_status HYDU_sock_read(int fd, void *buf, int maxlen, int *recvd, int *closed,
                          enum HYDU_sock_comm_flag flag)
HYD_status HYDU_sock_write(int fd, const void *buf, int maxlen, int *sent, int *closed,
                           enum HYDU_sock_comm_flag flag) 

例如,当我尝试使用 node1和node2 运行下面的测试源代码时,我可以看到启动了两个主要进程,一个在node1中运行,另一个在node2中运行。

int main(int argc, char** argv) {
  // Initialize the MPI environment
  MPI_Init(NULL, NULL);
  // Find out rank, size
  int world_rank;
  MPI_Comm_rank(MPI_COMM_WORLD, &world_rank);
  int world_size;
  MPI_Comm_size(MPI_COMM_WORLD, &world_size);

  // We are assuming at least 2 processes for this task
  if (world_size < 2) {
    fprintf(stderr, "World size must be greater than 1 for %s\n", argv[0]);
    MPI_Abort(MPI_COMM_WORLD, 1);
  }

  int number;
  if (world_rank == 0) {
    // If we are rank 0, set the number to -1 and send it to process 1
    number = -1;
    MPI_Send(&number, 1, MPI_INT, 1, 0, MPI_COMM_WORLD);
  } else if (world_rank == 1) {
    MPI_Recv(&number, 1, MPI_INT, 0, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
    printf("Process 1 received number %d from process 0\n", number);
  }
  MPI_Finalize();
}

问题是我可以在node1中调试第一个进程,并且我成功地更改了MPI函数中的所有源代码。但是,我还没有弄清楚如何调试在node2(外部主机)中运行的第二个进程。

我的问题是...... 有没有一种好方法来调试在外部主机中运行的第二个进程?我已经尝试过printf函数,但这也只在第一个在node1中运行的进程中运行,并且在node2中没有显示任何内容。

0 个答案:

没有答案