共享内存带宽Fermi vs Kepler GPU

时间:2012-09-10 15:13:13

标签: cuda gpu gpgpu nvidia

在访问共享内存时,Kepler的Fermi带宽是2倍还是4倍?

编程指南说明:“每个存储区的带宽为32位/每个两个时钟周期”(对于2.X),并且“每个存储区的带宽为每个时钟64位循环“(3.X),所以暗示4x?

2 个答案:

答案 0 :(得分:8)

在Fermi上,每个SM有32个存储区,每两个时钟周期提供32位。

在Kepler上,每个SMX有32个存储区,每个时钟周期提供64位。然而,由于Kepler的SMX从根本上被重新设计为节能,并且由于快速时钟的运行消耗了大量功率,因此Kepler的运行速度要慢得多。有关详细信息,请查看GTC大约8分钟的Inside Kepler演讲。

所以问题的答案是开普勒有2倍,而不是4倍。

下一版文档(CUDA 5.0)应该更好地解释这一点。

答案 1 :(得分:1)

中所述

编程指南4.2:共享内存有16个组织,使得连续的32位字映射到连续的组。每个存储区每两个时钟周期带宽为32位。

Kepler白皮书:与Fermi SM相比,64b及更大负载操作的共享内存带宽也增加了一倍,每核心时钟为256B。

对于小负载操作,它是4X。