标签: parallel-processing mpi topology
我开始学习MPI并阅读了一些标准版V3.1。在虚拟拓扑的章节中,它表示仅使用拓扑可以提高性能。我试图找到一些这方面的例子,但我找不到任何例子。我仍然是MPI的新成员,完全理解它的所有机制......
所以我想问一下,通过使用拓扑是否有一个很好的例子来看待差异。我想过矩阵乘法,但这只会显示出并行化的优势......
任何建议都将不胜感激。