费米L2缓存命中延迟?

时间:2011-07-19 08:11:42

标签: cuda opencl gpu gpgpu

有人知道有关费米二级缓存的相关信息吗?我听说它和全局内存一样慢,L2的使用只是为了扩大内存带宽。但我找不到任何官方消息来证实这一点。有没有人测量L2的命中延迟?尺寸,线条尺寸和其他参数怎么样?

实际上,L2读取失误如何影响性能?在我看来,L2只在内存受限的应用程序中有意义。 请随时发表您的意见。

由于

2 个答案:

答案 0 :(得分:3)

thread in the nvidia有一些性能特征测量值。虽然它不是官方信息,并且可能不是100%准确,但它至少给出了行为的一些指示,所以我认为它可能在这里有用(在时钟周期中测量):

  

1020非缓存(已启用L1但未使用)

     

1020非缓存(L1禁用)

     

365 L2缓存(禁用L1)

     

88 L1缓存(启用并启用L1)

同一个帖子中的另一篇文章给出了这些结果:

  

1060非缓存

     

248 L2

     

18 L1

答案 1 :(得分:0)

它不仅像全球记忆一样慢。我没有明确说明这一点,但是在CUDA编程指南中,它说“在高速缓存命中的情况下,或者在设备内存的吞吐量下,在L1或L2高速缓存的吞吐量下服务高速缓存行请求,否则。 “所以他们应该有所不同,这有什么意义,为什么NVIDIA会以相同的全局内存速度放置缓存?由于缓存未命中,平均会更糟。

关于我不知道的延迟。 L2缓存的大小为768KB,行大小为128字节。 CUDA编程指南的F4部分有更多信息,特别是F4.1和F4.2部分。该指南可在此处http://developer.download.nvidia.com/compute/DevZone/docs/html/C/doc/CUDA_C_Programming_Guide.pdf

获取