在访问共享内存时,Kepler的Fermi带宽是2倍还是4倍?
编程指南说明:“每个存储区的带宽为32位/每个两个时钟周期”(对于2.X),并且“每个存储区的带宽为每个时钟64位循环“(3.X),所以暗示4x?
答案 0 :(得分:8)
在Fermi上,每个SM有32个存储区,每两个时钟周期提供32位。
在Kepler上,每个SMX有32个存储区,每个时钟周期提供64位。然而,由于Kepler的SMX从根本上被重新设计为节能,并且由于快速时钟的运行消耗了大量功率,因此Kepler的运行速度要慢得多。有关详细信息,请查看GTC大约8分钟的Inside Kepler演讲。
所以问题的答案是开普勒有2倍,而不是4倍。
下一版文档(CUDA 5.0)应该更好地解释这一点。
答案 1 :(得分:1)
如
中所述编程指南4.2:共享内存有16个组织,使得连续的32位字映射到连续的组。每个存储区每两个时钟周期带宽为32位。
Kepler白皮书:与Fermi SM相比,64b及更大负载操作的共享内存带宽也增加了一倍,每核心时钟为256B。
对于小负载操作,它是4X。