Question

我必须为多个右边解决一个巨大的线性方程（比方说20到200）。 Matrix以稀疏格式存储并分布在多个MPI节点上（假设16到64）。我在0级节点上运行了一个CG求解器。直接求解线性方程是不可能的，因为系统矩阵是密集的（Sys = A ^ T * S * A）。

基本的矩阵 - 向量乘法实现为：

broadcast x
y = A_part * x
reduce y

虽然集体操作速度相当快（OpenMPI似乎使用了像通信模式+ Infiniband这样的二叉树），但它仍占运行时的很大一部分。出于性能原因，我们已经计算了每次迭代8个右侧（基本SpM * DenseMatrix，只是为了完成）。

我正试图想出一个隐藏通信延迟的好方案，但我还没有好主意。我也试图避免做1：n通信，虽然我还没有测量扩展是否会成为一个问题。

欢迎任何建议！

Answer 1

如果您的矩阵已经分布，是否可以使用分布式稀疏线性求解器，而不是仅在0级运行它，然后广播结果（如果我正确地读取您的描述......）。有很多库，例如SuperLU_DIST，MUMPS，PARDISO，Aztec（OO）等。

至少SuperLU和MUMPS支持“多重rhs”优化（没有检查其他人，但如果他们不支持它我会非常惊讶！），因为他们解决了AX = B，其中X和B是可能具有＆gt;的矩阵。 1列。也就是说，每个“rhs”被存储为B中的列向量。

Answer 2

如果你不需要在开始下一次运行之前获得旧右侧的结果，你可以尝试使用非阻塞通信（ISend，IRecv）并在计算下一个权利时传达结果 - 手边已经。

但请确保在阅读通信阵列的内容之前调用MPI_Wait，以确保您不会读取“旧”数据。

如果矩阵足够大（即计算矩阵乘积需要足够长的时间），那么使用这种方法就没有任何通信延迟。