我在Windows下使用Cuda 5.5,使用VS2010,nsight 3.1和捆绑的可视化分析器。
我有一个只做商店的玩具内核,我看到来自nsight和visual profiler的不同数据。我应该相信哪一个?为什么我会得到不同的观点?
Nsight称4.21MB商店和视觉分析器表示71402笔交易代表8.9MB(假设它们都是128B)。因此, Nsight称BW为277GB / s,视觉分析器为126.69GB / s
我认为Nsight数据更贴近现实,因为我的数据集是1024x1024。
修改
我从原来的问题中删除了许多错误的假设。我在思考CPU和缓存一致性。
访问模式: 每个线程执行4个连续1个字节的存储,这样(dst是char *):
for (int i = 0; i < 4; i++) {
dst[offset+i] = 0;
}
答案 0 :(得分:1)
设备内存和全局内存之间存在差异。在编程指南中,它表示设备存储器包括“全局,本地,共享,常量或纹理存储器”(见5.3.2)。
在第一张图片中,全局加载和存储应位于名为L1 / Shared Memory的第一个表中(在捕获中不可见)。