应用错误收集

时间：2012-09-10 15:13:13

标签： cuda gpu gpgpu nvidia

在访问共享内存时，Kepler的Fermi带宽是2倍还是4倍？

编程指南说明：“每个存储区的带宽为32位/每个两个时钟周期”（对于2.X），并且“每个存储区的带宽为每个时钟64位循环“（3.X），所以暗示4x？

答案 0 :(得分：8)

在Fermi上，每个SM有32个存储区，每两个时钟周期提供32位。

在Kepler上，每个SMX有32个存储区，每个时钟周期提供64位。然而，由于Kepler的SMX从根本上被重新设计为节能，并且由于快速时钟的运行消耗了大量功率，因此Kepler的运行速度要慢得多。有关详细信息，请查看GTC大约8分钟的Inside Kepler演讲。

所以问题的答案是开普勒有2倍，而不是4倍。

下一版文档（CUDA 5.0）应该更好地解释这一点。

答案 1 :(得分：1)

如

中所述

编程指南4.2：共享内存有16个组织，使得连续的32位字映射到连续的组。每个存储区每两个时钟周期带宽为32位。

Kepler白皮书：与Fermi SM相比，64b及更大负载操作的共享内存带宽也增加了一倍，每核心时钟为256B。

对于小负载操作，它是4X。