我试图使用谷歌找到问题的解决方案,但失败了。有很多片段完全不适合我的情况,虽然我认为这是一个非常标准的情况。
我必须将几个不同的数据阵列转移到cuda。所有这些都是具有动态大小的简单结构数组。因为我不想把所有内容都放到cuda内核调用中,我想,__device__
变量应该正是我需要的。
这就是我尝试将主机数据复制到__device__
变量的方式:
// MaterialDescription.h
struct MaterialDescription {
unsigned char type;
unsigned char diffuseR, diffuseG, diffuseB;
__device__ __forceinline__ float4 diffuseColour() const { return make_float4((float) diffuseR / 255.f, (float) diffuseG / 255.f, (float) diffuseB / 255.f, 0); }
};
// kernel.h
__device__ MaterialDescription* g_materials;
__global__ void deferredRenderKernel() {
something = g_materials[indexDependingOnData].diffuseColour();
}
//Cuda.cu
const std::vector<MaterialDescription>& materials = getData();
// version 1
cudaMemcpyToSymbol(g_materials, &materials.front(), sizeof(MaterialDescription) * materialCount);
// version 2
MaterialDescription* ptr;
cudaMalloc((void**)&ptr, sizeof(MaterialDescription) * materialCount);
cudaMemcpy(ptr, &materials.front(), sizeof(MaterialDescription) * materialCount, cudaMemcpyHostToDevice);
cudaMemcpyToSymbol(g_materials, ptr, sizeof(MaterialDescription) * materialCount);
// version 3
cudaMalloc((void**)&g_materials, sizeof(MaterialDescription) * materialCount);
cudaMemcpyToSymbol(g_materials, &materials.front(), sizeof(MaterialDescription) * materialCount);
deferredRenderKernel<<<numBlocks, threadsPerBlock>>();
然而,唯一有效的版本包括内核参数
// kernel.h
__device__ MaterialDescription* g_materials;
__global__
void deferredRenderKernel(MaterialDescription* ptr) {
g_materials = ptr;
something = g_materials[indexDependingOnData].diffuseColour();
}
//Cuda.cu
// version 4, the only one working. but i pass again via kernel param
// in the worst case i'll stick to this, at least i wouldn't have to pass the
// parameters into device functions
MaterialDescription* ptr;
cudaMalloc((void**)&ptr, sizeof(MaterialDescription) * materialCount);
cudaMemcpy(ptr, &materials.front(), sizeof(MaterialDescription) * materialCount, cudaMemcpyHostToDevice);
deferredRenderKernel<<<numBlocks, threadsPerBlock>>(ptr);
编辑: 这个版本(由Robert Crovella提出)也可以,但内存不是动态分配的。
// kernel.h
__device__ MaterialDescription g_materials[VIENNA_MAX_MATERIAL_COUNT];
__global__
void deferredRenderKernel() {
something = g_materials[indexDependingOnData].diffuseColour();
}
// cuda.h
// version 1
cudaMemcpyToSymbol(g_materials, &materials.front(), sizeof(MaterialDescription) * materialCount);
其他变量和结构与上述相同。
编辑:
它最终以我想要的方式工作。
MaterialDescription.h
struct MaterialDescription {
unsigned char type;
unsigned char diffuseR, diffuseG, diffuseB;
__device__ __forceinline__ float4 diffuseColour() const { return make_float4((float) diffuseR / 255.f, (float) diffuseG / 255.f, (float) diffuseB / 255.f, 0); }
};
kernel.h当
__device__ MaterialDescription* g_materials;
__global__ void deferredRenderKernel() {
something = g_materials[indexDependingOnData].diffuseColour();
}
Cuda.cu
const std::vector<MaterialDescription>& materials = getData();
MaterialDescription* dynamicArea;
// allocate memory on the device for our data
cudaMalloc((void**)&dynamicArea, sizeof(MaterialDescription) * materialCount);
// copy our data into the allocated memory
cudaMemcpy(dynamicArea, &materials.front(), sizeof(MaterialDescription) * materialCount, cudaMemcpyHostToDevice);
// copy the pointer to our data into the global __device__ variable.
cudaMemcpyToSymbol(g_materials, &dynamicArea, sizeof(MaterialDescription*));
答案 0 :(得分:2)
如果你在问这样的问题时给出了一个完整的例子,那就太好了。查看MaterialDescription
和materials
的定义会很有用。请查看what SO expects,了解“为什么我的代码不能正常工作?”这一类型的问题。
这只保存指针的存储空间:
__device__ MaterialDescription* g_materials;
您无法将整个结构/对象复制到指针上。
当您分配这样的设备变量时,它是静态分配,这意味着需要在编译时知道大小。因此,如果您在编译时知道大小(或最大大小),则可以执行以下操作:
__device__ MaterialDescription g_materials[MAX_SIZE];
// this assumes materialCount <= MAX_SIZE
cudaMemcpyToSymbol(g_materials, &(materials.front()), sizeof(MaterialDescription) * materialCount);