应用错误收集

一般情况：

我开发了一个用FORTRAN90编写的相当大的Navier-Stokes（有限差分）求解器。它有自适应网格（因此负载平衡问题），我尝试了各种技术（MPI，OpenMP和OpenMP-MPI hyrbid）来并行化它。然而，它不能很好地扩展，即根据Amdahl定律，并行运行96-97％的计算。此外，网格的一般大小是几亿个点，这需要在将来稍后增加。

查询：

现在，我正在考虑转而使用Julia，因为维护现有代码并为其添加更多功能变得非常繁琐。

问题在于我无法找到关于Julia并行性能的好答案。我在互联网上搜索过，并观看了很多YouTube视频。我注意到的是，大多数人都认为Julia非常适合并行计算，有些人甚至提供了一个条形图，显示与串行代码相比经过的时间减少了。然而，一些答案/视频已经很老了，由于这种新语言不断增长，这使得它们变得有点不可靠。

因此，我想知道这种语言是否能够扩展甚至数千个核心？

额外信息：

我仍在努力提高现有代码的速度，以实现几千个内核的近乎线性的性能。解算器需要每个时间步长交换3-4次重叠点。因此，它涉及巨大的通信开销。但是，代码的非自适应网格版本可以轻松扩展到20k内核。

我还在某处读过Julia并不使用InfiniBand标准进行数据通信。

用于大规模计算的Julia并行加速性能

1 个答案: