应用错误收集

现代机器的内存带宽性能

时间：2010-03-18 01:38:16

标签： performance memory hardware memcpy

我正在设计一个偶尔必须复制大量内存的实时系统。内存由非小区域组成，因此我预计复制性能将非常接近相关组件（CPU，RAM，MB）可以执行的最大带宽。这让我想知道现代商品机可以采用什么样的原始内存带宽？

如果我使用1个线程到memcpy()，我的老化Core2Duo会给我1.5 GB / s（如果我memcpy()同时使用两个核心，那么可以理解的更少。）虽然1.5 GB是相当数量的数据，我正在处理的实时应用程序将具有1/50秒的内容，这意味着30 MB。基本上，几乎没有。也许最糟糕的是，当我添加多个内核时，我可以处理更多数据而不会提高所需复制步骤的性能。

但是现在低端的Core2Due并不是很热门的东西。是否有任何网站在当前和近期硬件的原始内存带宽上都有信息，例如实际基准测试？

此外，为了在内存中复制大量数据，是否有任何快捷方式，或者memcpy()是否会达到最佳状态？

考虑到一堆核心无所事事，但在很短的时间内尽可能多地重复内存，我能做的最好的是什么？

编辑：我仍在寻找有关原始内存复制性能的良好信息。我只是运行了我的旧memcpy()基准。相同的机器和设置，现在提供2.5 GB / s ......

2 个答案:

答案 0 :(得分：2)

在较新的CPU上，例如Nehalem，以及自Opteron以来的AMD，内存对于一个CPU是“本地的”，其中一个CPU可能有多个内核。也就是说，核心访问连接到其CPU的本地内存需要一定的时间，核心有更多时间访问远程内存，其中远程内存是其他CPU本地的内存。这称为非均匀内存访问或NUMA。为获得最佳的memcpy性能，您需要将BIOS设置为NUMA模式，将线程固定到内核，并始终访问本地内存。详细了解NUMA on wikipedia。

不幸的是，我不知道有关最新CPU和芯片组的memcpy性能的网站或最近的论文。你最好的选择可能是自己测试一下。

至于memcpy()表现，有很多变化，具体取决于实施情况。例如，英特尔C库（或可能是编译器本身）的memcpy()比Visual Studio 2005提供的快得多。至少在英特尔机器上。

您可以做的最佳内存副本取决于数据的对齐方式，您可以使用向量指令，还有页面大小等。实现好的memcpy()令人惊讶，所以我建议在编写自己的实现之前尽可能多地查找和测试实现。如果您了解有关副本的更多细节，例如对齐和大小，那么可能能够比英特尔memcpy()更快地实现某些功能。如果您想了解详细信息，可以从英特尔和AMD优化指南开始，或Agner Fog's software optimization pages。

答案 1 :(得分：1)

我认为你正在以错误的方式解决问题。我认为，目标是在不破坏实时性能的情况下导出数据的一致快照。不要使用硬件，使用算法。

您要做的是在数据之上定义日记系统。当您开始内存传输时，您有两个线程：原始的工作并认为它正在修改数据（但实际上只是写入日志），以及一个新的线程将旧的（未记录的）数据复制到一个单独的位置，所以它可以慢慢写出来。

当新线程完成后，您将其用于将数据集与日志合并，直到日志为空。当它完成后，旧线程可以返回直接与数据交互，而不是通过日志修改版本进行读/写。

最后，新线程可以转到复制的数据并开始慢慢将其传递给远程源。

如果您设置了这样的系统，只要您可以在日志充分到现实之前完成内存中的复制，就可以在正在运行的系统中实现任意大量数据的即时快照。时间系统无法跟上其处理需求。