我正在尝试取消以MPI_Irecv
启动的异步操作。在一个线程中,我有一个循环,该循环不断地监听请求,并连续调用MPI_Irecv
和MPI_Wait
。为了彻底退出循环,我想取消该请求,例如从另一个线程调用MPI_Cancel
。
据我了解,MPI_Cancel
标记了要取消的通信,并引用了规范:
如果某个通信被标记为要取消,则可以保证该通信的
MPI_WAIT
调用会返回。
以下代码显示,此操作不符合我的预期,因为MPI_WAIT
从不返回-经过Windows上的最新MS-MPI和Linux上的MPICH2的测试。
#include <mpi.h>
#include <iostream>
#include <future>
using namespace std::literals::chrono_literals;
void async_cancel(MPI_Request *request)
{
std::this_thread::sleep_for(1s);
std::cout << "Before MPI_Cancel" << std::endl;
int res = MPI_Cancel(request);
if (res != MPI_SUCCESS)
std::cerr << "MPI_Cancel failed" << std::endl;
std::cout << "After MPI_Cancel" << std::endl;
}
int main(int argc, char* argv[])
{
int provided;
MPI_Init_thread(&argc, &argv, MPI_THREAD_MULTIPLE, &provided);
if (provided != MPI_THREAD_MULTIPLE)
std::cout << "MPI_Init_thread could not provide MPI_THREAD_MULTIPLE" << std::endl;
int rank, numprocs;
MPI_Comm_size(MPI_COMM_WORLD, &numprocs);
MPI_Comm_rank(MPI_COMM_WORLD, &rank);
MPI_Request request;
MPI_Status status;
int buffer;
if (rank == 0)
{
MPI_Irecv(&buffer, 1, MPI_INT, 1, 123, MPI_COMM_WORLD, &request);
auto res = std::async(std::launch::async, &async_cancel, &request);
std::cout << "Before MPI_Wait" << std::endl;
MPI_Wait(&request, &status);
std::cout << "After MPI_Wait " << std::endl;
}
else
std::this_thread::sleep_for(2s);
MPI_Finalize();
return 0;
}
这是一个实施问题吗?是否有更好的方法强制MPI_Wait
返回?
编辑:该代码(使用@Zulan和@amlucas注释更新)实际上适用于大多数实现,但适用于MS-MPI。
答案 0 :(得分:0)
MPI_Init
为单线程调用初始化了MPI。
尝试改用MPI_Init_thread
,它使您可以使用线程安全的MPI调用。
答案 1 :(得分:0)
首先,您需要确保正确线程化的MPI,例如通过将MPI_Init
替换为
int thread_level;
MPI_Init_thread(&argc, &argv, MPI_THREAD_MULTIPLE, &thread_level);
if (thread_level != MPI_THREAD_MULTIPLE)
{
std::cout << "Invalid thread level " << thread_level << "\n";
return -1;
}
当您要同时调用任何MPI函数时,这是必需的。
对我来说,这适用于OpenMPI 4.0.1或Intel MPI 2019.0.0。
但是,您还需要删除MPI_Request_free
,因为它与MPI_Wait
是多余的,MPI_Test
也会清理请求。
现在,尽管这似乎可行,并且MPI对具有相同请求的并发调用MPI函数没有任何限制。但是,我不太愿意说标准的措词明确地允许您使用特定的用例-即使是这样,这在实现中似乎很容易出错。
如果遇到麻烦,可以考虑使用MPI_Waitany
循环-以延迟和能耗为代价。另一种选择是伪接收请求和MPI_Cancel
。然后,您发送的消息与虚拟请求匹配,而不是ImportError: DLL load failed: The specified module could not be found.
。