Question

我有下面的链表实现，其中我在内核内调用malloc。现在，我需要在主机上查看结果。基本上，我需要将在设备中创建的任何内容都传输到主机。

我研究了几种实现方式，但不清楚。

struct SlabList{
        int val[SLAB_SIZE];
        int key[SLAB_SIZE];
        struct SlabList* next;
};
__global__ void insertKernel(struct SlabList* head_ref, int* new_key, int* new_val, int size){
        int id = blockIdx.x*blockDim.x + threadIdx.x;
        if(id==0){
        head_ref=NULL;
        for(int i=0;i<size/4;i++){
                struct SlabList* new_node = (struct SlabList*) malloc(sizeof(struct SlabList));
                for(int j=0;j<SLAB_SIZE;j++){
                        new_node->key[j] = new_key[i*SLAB_SIZE+j];
                        new_node->val[j]= new_val[i*SLAB_SIZE+j];
                        printf("key--->%d\tVal---->%d\n",new_node->key[j],new_node->val[j]);
                }
                new_node->next = head_ref;
                head_ref    = new_node;
        }
}

int main(void){
int *val_array = (int *)malloc(N * sizeof(int));
        int *key_array = (int *)malloc(N * sizeof(int));
        int *d_val_array = NULL;
        int *d_key_array = NULL;
        int *device_array;
        struct SlabList *start=(struct SlabList*)malloc(sizeof(struct SlabList));
        struct SlabList *d_start=(struct SlabList*)malloc(sizeof(struct SlabList));
        cudaMalloc(&d_val_array, N * sizeof(int));
        cudaMalloc(&d_key_array, N * sizeof(int));
        struct Slab* new_node = (struct Slab*) malloc(sizeof(struct Slab));
        for (int i = 0; i < N; i++){
                val_array[i] =i;
                key_array[i] =i+10;
        }
        cudaMemcpy(d_val_array, val_array, N * sizeof(int), cudaMemcpyHostToDevice);
        cudaDeviceSetLimit(cudaLimitMallocHeapSize, sizeof(struct SlabList)*N);
        cudaMemcpy(d_key_array, key_array, N * sizeof(int), cudaMemcpyHostToDevice);
        const clock_t begin_time1 = clock();
        insertKernel<<<1, 1>>>(d_start, d_val_array,d_key_array, N);
//      insertKernel<<<32, 32>>>();
        cudaDeviceSynchronize();
        struct SlabList* head1 = NULL;
        cudaMemcpy(head1, d_start, N * sizeof(int), cudaMemcpyDeviceToHost);

Answer 1

无法将数据从内核malloc分配的区域直接传输到主机内存。原因是mentioned in the programming guide。由内核malloc或内核new或内核cudaMalloc分配的数据区域是从称为设备堆的特殊区域中分配的。

设备堆中的地址不能参与任何基于主机的cudaMemcpy类型的API。主机内存中的地址或由基于主机的设备分配器（例如cudaMalloc，cudaHostAlloc或cudaMallocManaged）产生的地址都可以参与主机cudaMemcpy类型的API。

因此，唯一的解决方案是：

使用基于主机的API（例如cudaMalloc，cudaHostAlloc，cudaMallocManaged）进行分配
在设备代码中，将数据从内核malloc分配的区域复制到上述步骤1中分配的区域。
根据需要使用普通的基于主机的复制API（例如cudaMemcpy，但如果在步骤1中的区域分配有cudaHostAlloc或cudaMallocManaged的情况下则不需要显式复制）步骤1中分配给主机的区域中的数据。

如何将数据（使用malloc动态分配）从设备传输到cuda中的主机？

1 个答案: