我有以下情况:我已经编写了一些简短的MPI测试代码,以便找出在我的代码中哪种发送和接收操作最佳。
代码在我自己的计算机上运行得非常好(使用8个进程测试),但是只要我运行它一个正在处理的集群,我就会得到一个损坏或双重释放指针的巨大错误输出,这个是输出:http://pastebin.com/pXTRSf89
我在代码中所做的事情如下:我将通信功能调用100K次并测量时间。此功能如下所示。我发现的是,错误总是发生在同一次迭代中(大约6K左右)。但报告的processorID确实发生了变化。即使我使用64个proc而不是8个,迭代也是一样的。问题是:我完全不知道,什么可能是错的,特别是因为没有指针被释放或分配。
void communicateGrid(int level, real* grid, const Subdomain& subdomain, std::vector<TimeMap>& tm_) {
tm_[level]["CommGrid"].start();
MPI_Status status[2];
MPI_Request request[2];
// x
MPI_Isend(&grid[getIndexInner(level, 1, 1, 1) + innerGridpoints_[level][0] - numOuterGridpoints_[level]], 1, mpiTypes_[level * 4 + 1], subdomain.upperNeighbors[0], 0, MPI_COMM_WORLD, &request[0]);
MPI_Isend(&grid[getIndexInner(level, 1, 1, 1)], 1, mpiTypes_[level * 4 + 1], subdomain.lowerNeighbors[0], 1, MPI_COMM_WORLD, &request[1]);
MPI_Recv(&grid[getIndexInner(level, 1,1,1) + innerGridpoints_[level][0]], 1, mpiTypes_[level * 4 + 1], subdomain.upperNeighbors[0], 1, MPI_COMM_WORLD, &status[0]);
MPI_Recv(&grid[getIndexInner(level, 1,1,1) - numOuterGridpoints_[level]], 1, mpiTypes_[level * 4 + 1], subdomain.lowerNeighbors[0], 0, MPI_COMM_WORLD, &status[1]);
//y
MPI_Isend(&grid[getIndex(level, 0, innerGridpoints_[level][1], 0)], 1, mpiTypes_[level * 4 + 2], subdomain.upperNeighbors[1], 2, MPI_COMM_WORLD, &request[0]);
MPI_Isend(&grid[getIndex(level, 0, numOuterGridpoints_[level], 0)], 1, mpiTypes_[level * 4 + 2], subdomain.lowerNeighbors[1], 3, MPI_COMM_WORLD, &request[1]);
MPI_Recv(&grid[getIndex(level, 0, innerGridpoints_[level][1] + numOuterGridpoints_[level], 0)], 1, mpiTypes_[level * 4 + 2], subdomain.upperNeighbors[1], 3, MPI_COMM_WORLD, &status[0]);
MPI_Recv(grid, 1, mpiTypes_[level * 4 + 2], subdomain.lowerNeighbors[1], 2, MPI_COMM_WORLD, &status[1]);
// z
MPI_Isend(&grid[getIndex(level, 0, 0, innerGridpoints_[level][2])], 1, mpiTypes_[level * 4 + 3], subdomain.upperNeighbors[2], 4, MPI_COMM_WORLD, &request[0]);
MPI_Isend(&grid[getIndex(level, 0, 0, numOuterGridpoints_[level])], 1, mpiTypes_[level * 4 + 3], subdomain.lowerNeighbors[2], 5, MPI_COMM_WORLD, &request[1]);
MPI_Recv(&grid[getIndex(level, 0, 0, numOuterGridpoints_[level] + innerGridpoints_[level][2])], 1, mpiTypes_[level * 4 + 3], subdomain.upperNeighbors[2], 5, MPI_COMM_WORLD, &status[0]);
MPI_Recv(grid, 1, mpiTypes_[level * 4 + 3], subdomain.lowerNeighbors[2], 4, MPI_COMM_WORLD, &status[1]);
tm_[level]["CommGrid"].stop();
}
mpiTypes_是MPI_Datatype *类型的全局变量,innerGridpoints_和numOuterGridpoints_也是全局的(我知道这不是一个好的编码风格,但我只把它用于计时)。 我很确定我的数据类型是正确的,因为它们可用于另一种通信功能设置(例如Irecv后跟发送)。
最后注意:我只是尝试用一个进程来运行它。然后发生以下错误:
等级0 [Mon Apr 22 02:11:23 2013] [c0-0c1s3n0]致命错误 PMPI_Isend:内部MPI错误!,错误堆栈:PMPI_Isend(148): MPI_Isend(buf = 0x2aaaab7b531c,count = 1,dtype = USER,dest = 0, tag = 1,MPI_COMM_WORLD,request = 0x7fffffffb4d4)失败(未知)(): 内部MPI错误! _pmiu_daemon(SIGCHLD):[NID 00070] [c0-0c1s3n0] [Mon Apr 22 02:11:23 2013] PE RANK 0退出信号已中止
同样,这只发生在集群上,但在我的机器上运行。
我很高兴我能检查的任何内容或错误的位置! 感谢
答案 0 :(得分:2)
您必须在MPI_Isend()
创建的那些MPI请求上等待或测试,否则您将泄漏内部资源,并最终崩溃,这就是正在发生的事情。
杰夫·斯奎尔斯在他的blog post at Cisco中表现得非常好。
您知道那些Isends正在完成,但MPI库无法知道这一点并清理那些MPI_Request
分配和指向的资源。需要多少资源和什么样的资源取决于很多东西,包括底层网络连接(例如,可以占用稀缺的infiniband资源),所以它在你自己的机器上运行而不是在集群上运行并不奇怪
您可以通过添加
来解决此问题MPI_Waitall(2, request, status);
在MPI_Isend
/ MPI_Recv()
s。的每个阶段之后
这不仅仅是清理资源所必需的,实际上还需要具有非阻塞请求的程序的正确性。