视觉分析器和nsight分析之间的内存带宽的不同视图

时间:2013-06-19 12:23:55

标签: visual-studio-2010 cuda nsight

我在Windows下使用Cuda 5.5,使用VS2010,nsight 3.1和捆绑的可视化分析器。

我有一个只做商店的玩具内核,我看到来自nsight和visual profiler的不同数据。我应该相信哪一个?为什么我会得到不同的观点?

Nsight称4.21MB商店和视觉分析器表示71402笔交易代表8.9MB(假设它们都是128B)。因此, Nsight称BW为277GB / s,视觉分析器为126.69GB / s

我认为Nsight数据更贴近现实,因为我的数据集是1024x1024。

修改

我从原来的问题中删除了许多错误的假设。我在思考CPU和缓存一致性。

访问模式: 每个线程执行4个连续1个字节的存储,这样(dst是char *):

for (int i = 0; i < 4; i++) {
   dst[offset+i] = 0;
}

Visual profiler

Nsight

1 个答案:

答案 0 :(得分:1)

设备内存和全局内存之间存在差异。在编程指南中,它表示设备存储器包括“全局,本地,共享,常量或纹理存储器”(见5.3.2)。

在第一张图片中,全局加载和存储应位于名为L1 / Shared Memory的第一个表中(在捕获中不可见)。