有人知道有关费米二级缓存的相关信息吗?我听说它和全局内存一样慢,L2的使用只是为了扩大内存带宽。但我找不到任何官方消息来证实这一点。有没有人测量L2的命中延迟?尺寸,线条尺寸和其他参数怎么样?
实际上,L2读取失误如何影响性能?在我看来,L2只在内存受限的应用程序中有意义。 请随时发表您的意见。
由于
答案 0 :(得分:3)
这thread in the nvidia有一些性能特征测量值。虽然它不是官方信息,并且可能不是100%准确,但它至少给出了行为的一些指示,所以我认为它可能在这里有用(在时钟周期中测量):
1020非缓存(已启用L1但未使用)
1020非缓存(L1禁用)
365 L2缓存(禁用L1)
88 L1缓存(启用并启用L1)
同一个帖子中的另一篇文章给出了这些结果:
1060非缓存
248 L2
18 L1
答案 1 :(得分:0)
它不仅像全球记忆一样慢。我没有明确说明这一点,但是在CUDA编程指南中,它说“在高速缓存命中的情况下,或者在设备内存的吞吐量下,在L1或L2高速缓存的吞吐量下服务高速缓存行请求,否则。 “所以他们应该有所不同,这有什么意义,为什么NVIDIA会以相同的全局内存速度放置缓存?由于缓存未命中,平均会更糟。
关于我不知道的延迟。 L2缓存的大小为768KB,行大小为128字节。 CUDA编程指南的F4部分有更多信息,特别是F4.1和F4.2部分。该指南可在此处http://developer.download.nvidia.com/compute/DevZone/docs/html/C/doc/CUDA_C_Programming_Guide.pdf
获取