我现在已经搞乱了一段时间了,但似乎无法做到这一点。我正在尝试将包含数组的对象复制到CUDA设备内存中(又回来了,但是当我来到它时,我将穿过那座桥):
struct MyData {
float *data;
int dataLen;
}
void copyToGPU() {
// Create dummy objects to copy
int N = 10;
MyData *h_items = new MyData[N];
for (int i=0; i<N; i++) {
h_items[i].dataLen = 100;
h_items[i].data = new float[100];
}
// Copy objects to GPU
MyData *d_items;
int memSize = N * sizeof(MyData);
cudaMalloc((void**)&d_items, memSize);
cudaMemCpy(d_items, h_items, memSize, cudaMemcpyHostToDevice);
// Run the kernel
MyFunc<<<100,100>>>(d_items);
}
__global__
static void MyFunc(MyData *data) {
int idx = blockIdx.x * blockDim.x + threadIdx.x;
for (int i=0; i<data[idx].dataLen; i++) {
// Do something with data[idx].data[i]
}
}
当我调用MyFunc(d_items)时,我可以正常访问数据[idx] .dataLen。但是,data [idx] .data尚未复制。
我无法在copyToGPU中使用d_items.data作为cudaMalloc / cudaMemCpy操作的目标,因为主机代码无法取消引用设备指针。
怎么办?
答案 0 :(得分:3)
示例:
float *d_data;
cudaMalloc((void**)&d_data, N*100*sizeof(float));
for (...) {
h_items[i].data = i*100 + d_data;
}
答案 1 :(得分:2)
您提供的代码仅复制MyData结构:主机地址和整数。要过于清楚,您要复制指针而不是数据 - 您必须明确复制数据。
如果数据始终相同LENGTH
,那么您可能只想制作一个大数组:
float *d_data;
memSize = N * LENGTH * sizeof(float);
cudaMalloc((void**) &d_data, memSize);
//and a single copy
cudaMemcpy(d_data, h_data, memSize, cudaMemcpyHostToDevice);
如果需要在包含其他数据的结构中,则:
struct MyData {
float data[LENGTH];
int other_data;
}
MyData *d_items;
memSize = N * sizeof(MyData);
cudaMalloc((void**) &d_items, memSize);
//and again a single copy
cudaMemcpy(d_data, h_data, memSize, cudaMemcpyHostToDevice);
但是,我假设您拥有各种长度的数据。一种解决方案是将LENGTH设置为最大长度(并且只是浪费一些空间),然后以与上面相同的方式进行。这可能是最简单的启动方式,然后您可以稍后进行优化。
如果您无法承受丢失的内存和传输时间,那么我将拥有三个阵列,一个包含所有数据,另一个包含偏移,一个包含长度,用于主机和设备:
//host memory
float *h_data;
int h_offsets[N], h_lengths[N]; //or allocate these dynamically if necessary
int totalLength;
//device memory
float *d_data;
int *d_offsets, *d_lengths;
/* calculate totalLength, allocate h_data, and fill the three arrays */
//allocate device memory
cudaMalloc((void**) &d_data, totalLength * sizeof(float));
cudaMalloc((void**) &d_ffsets, N * sizeof(int));
cudaMalloc((void**) &d_lengths, N * sizeof(int));
//and now three copies
cudaMemcpy(d_data, h_data, totalLength * sizeof(float), cudaMemcpyHostToDevice);
cudaMemcpy(d_offsets, h_offsets, N * sizeof(int); cudaMemcpyHostToDevice);
cudaMemcpy(d_lengths, h_lengths, N * sizeof(int); cudaMemcpyHostToDevice);
现在在帖子i
中,您可以找到以d_data[d_offsets[i]]
开头并且长度为d_data[d_lengths[i]]