应用错误收集

NVIDIA Fermi中的二级缓存

时间：2011-08-06 09:42:03

标签： cuda gpu gpgpu nvidia

在查看NVIDIA Fermi架构中的性能计数器名称（cuda的doc文件夹中的Compute_profiler.txt文件）时，我注意到对于L2缓存未命中，有两个性能计数器，l2_subp0_read_sector_misses和l2_subp1_read_sector_misses。他们说这些是两片L2。

为什么他们有两片L2？与流式多处理器架构有什么关系吗？这种划分对表现的影响是什么？

由于

2 个答案:

答案 0 :(得分：1)

我认为与流式多处理器没有任何直接关系。

我认为切片相当于银行存储器。

只需对两者的值求和，即可获得“总”L2读取失误。

答案 1 :(得分：1)

CUDA C编程指南描述了多处理器的体系结构。该文档指出每个Fermi多处理器都有两个warp调度程序。我假设L2缓存被拆分以允许并发缓存。

我没有看过Kepler架构的L2读取错误，但Kepler多处理器有四个warp处理器。因此，如果为Kepler编译报告了四个性能计数器，则可以验证此假设。