应用错误收集

多核应用中的性能增益问题

时间：2010-08-09 05:57:50

标签： tbb multicore

我有一个用C编写的串行（非并行）应用程序。我已使用英特尔线程构建模块对其进行了修改和重写。当我在AMD Phenom II机器（四核机器）上运行这个并行版本时，我的性能提升超过4倍，这与Amdahl定律相冲突。任何人都可以告诉我为什么会这样吗？

谢谢，勒凯什。

3 个答案:

答案 0 :(得分：4)

如果重写程序，可以提高效率。 Amdahl定律仅限制因并行性而导致的加速量，而不是通过改进代码来提高代码的速度。

你可能已经意识到拥有4倍缓存的效果，因为现在你可以使用所有四个触发器。或者与您机器上运行的其他进程争用较少。或者你不小心修了一个错误预测的分支。

TL / DR：它发生了。

答案 1 :(得分：2)

它被称为“超线性加速”，并且可能由于各种原因而发生，尽管最常见的根本原因可能是缓存行为。通常，当发生超线性加速时，可以使顺序版本更有效率。

例如，假设您有一个处理器，其中某些内核共享L2缓存（这些天是常见的架构），并假设您的算法对大型数据结构进行多次遍历。如果按顺序执行遍历，那么每次遍历都必须重新将数据拉入L2缓存，而如果你并行执行遍历，那么只要遍历运行，你就可以避免大量的这些遍历。步骤（失步是这里不可预测的表现的良好来源）。为了使顺序verison更有效，您可以交错遍历，从而改善局部性。

答案 2 :(得分：1)

有人能告诉我为什么会这样吗？

总之，缓存。

每个核心都有自己的L1缓存，因此，只需使用更多核心，就可以增加缓存中的缓存量，从而使更多的数据更接近处理的位置。仅此一项就可以显着提高性能（就好像你在一个内核上有更大的缓存）。当与有效并行化的近线性加速相结合时，您可以看到整体的超线性性能改进。