在CUDA visual profiler第5版中,我知道“gld / st_requested_throughput”是应用程序请求的内存吞吐量。但是,当我试图找到硬件的实际吞吐量时,我很困惑,因为有两对似乎是合格的指标,它们是“gld / st_throughput”和“dram_read / write_throughput”。哪一对实际上是硬件吞吐量?另一个是什么?
答案 0 :(得分:1)
gld/st_throughput
包括L1和L2缓存提供的事务。虽然dram_read/write_throughput
是L2和设备内存之间的吞吐量。因此,每个全局内存访问都计入gld/st_throughput
,但只有错过L1和L2缓存的请求才会计入dram_read/write_throughput
。
我没有在任何地方找到好的概述。希望NVIDIA能够提供......