应用错误收集

简而言之，是的，但这是特定于问题的 - 某些应用程序根本无法与内核数量线性扩展，并且有很多原因（例如，应用程序中的线程/数据级并行性不足）。事实上，根据我的经验，你很难找到一个应用程序，而不是令人尴尬的并行应用程序（例如Monte Carol模拟？），它们可以与核心数量完美匹配。如果没有对应用程序进行分析，任何人都不可能给出准确的答案，因为有很多可能的原因导致子线性缩放。

但是，在您的情况下，最明显的问题可能是由超线程（HT）引起的。您展示的最直观的结果是，从12个线程移动到24个线程（即，当最大程度地使用超线程时）几乎不会加速。在某些情况下，HT不会导致性能提升。这通常是在：

运行充分利用CPU运算单元的应用程序。例如，请参阅this。
当每个线程有来自主存储器（例如）的大量I / O时（换句话说，如果您的应用程序变为内存绑定）。您可以使用roofline model查看您的应用程序是内存还是计算边界。

这是因为最终HT通过在该核心上运行的线程之间共享CPU核心内的许多执行单元来工作。例如，如果每个核心都有一个浮点单元，对于在该核心上运行的所有线程共享，则无论您使用多少线程，每个时钟周期都不能执行多个浮点运算。为了调查这是否是原因，我建议禁用HT（因为甚至可能存在性能开销）。在Unix机器上通常有一个内核启动选项来禁用HT。

最后，另一个典型问题是双插槽机器通常是（？）NUMA机器。这意味着从不同的CPU访问相同的存储器内容可能需要不同的时间。所以你的实现应该是NUMA意识。

openMPI会导致双Hexacore机器出现性能问题吗？

1 个答案: