应用错误收集

我一直在通过mpi4py使用Python中的MPI。并行处理我开发的某些代码，效果非常好。但是，我在很大程度上依赖于Numpy进行矩阵操作。我对将Numpy与MPI结合使用有疑问。

让我们以Numpy中的de dot函数为例。假设我有两个巨大的矩阵A和B，我想计算它们的矩阵乘积A * B：

numpy.dot(A, B)

我想知道如何将此函数调用扩展到整个集群。我可以将B（按列）分块为较小的矩阵，并将矩阵乘积分布在群集节点上，从而重新组合结果。但是，这似乎是一个错误的解决方法。有更好的解决方案吗？