当我创建一个具有3深度结构且最深层有2个diminsional数组的结构时,在使用CUDA调试器时,在设备上分配内存并访问该数组会导致内存检查器访问冲突错误。这是一个例子:
#include "stdafx.h"
#include <stdio.h>
#include <cuda.h>
#include <cuda_runtime.h>
#include <device_launch_parameters.h>
typedef struct {
int value;
} Level3;
typedef struct {
Level3 lvl3ObjArr[10][10];
} Level2;
typedef struct {
Level2 lvl2Obj;
} Level1;
__global__ void AccessViolationKernel(Level1 *_lvl1Ptr)
{
int _value;
_lvl1Ptr->lvl2Obj.lvl3ObjArr[2][5].value = 4;
_value = _lvl1Ptr->lvl2Obj.lvl3ObjArr[2][5].value;
printf("Value = %i\n", _value);
}
int _tmain(int argc, _TCHAR* argv[])
{
Level1 *lvl1Ptr;
cudaMalloc((void **)&lvl1Ptr, sizeof(Level1));
AccessViolationKernel<<<5, 1>>>(lvl1Ptr);
return 0;
}
即使查看内存并添加正确的字节,在使用CUDA调试器时,对于lvl1Ptr对lvl3ObjArr [2] [5]的封装引用,一切似乎都正确加起来。但是,访问的数据不正确,并且memchecker会引发访问冲突。
设备上是否未正确分配Level1?为什么我会收到访问冲突?
提前致谢!
- 更新(2013年9月30日下午16:29 CST) -
此代码编译(抱歉!)但它没有出现错误。我认为它是因为我使用的是设备API malloc而不是cudaMalloc,并且稍后尝试从主机的CUDA API访问数据。我需要一段时间来生成代码来重现这一点,道歉 - 我减少的源代码是2800行。
答案 0 :(得分:0)
好的,找到了解决方案。我在内核中混合了cudaMalloc和malloc / free。这不是直观的,因为我使用cudaMalloc分配根,然后再使用malloc在设备上再分配它。一些对象仍然通过封装从主机分配,因此设备堆在访问期间没有意识到,并且会引发访问冲突。