如何将包含struct的数组传递给CUDA中的内核?

时间:2015-06-01 22:30:41

标签: c arrays cuda

在下面的代码中,我在struct中有一个数组,我需要传递给内核函数。我似乎无法找到正确的方法。我试着查看SO上的其他帖子,但不太了解他们的方法。

在我的实际代码中,我接收两个结构作为指针,作为调用内核的函数的参数。因此,我需要复制这些参数结构的内容。到GPU内存结构'并将它们传递给内核。

#include <stdio.h>
#include <stdlib.h>

typedef struct{
    int *pass;
    int element;
}Pass;

__global__ void hello(int *a, int *b, Pass *p){

    int i = blockIdx.x * blockDim.x + threadIdx.x;
    if(i < *b)
        a[i] = p -> pass[i] + p -> element;
}

int main(){

    int *a_host, b_host = 5;
    int *a_gpu, *b_gpu;
    Pass *p, *p_gpu;

    a_host = (int*)malloc(sizeof(int) * 5); 
    cudaMalloc(&a_gpu, 5 * sizeof(int));

    cudaMalloc(&b_gpu, sizeof(int));
    cudaMemcpy(b_gpu, &b_host, sizeof(int), cudaMemcpyHostToDevice);

    p = (Pass*)malloc(sizeof(Pass));
    p -> pass = (int*)malloc(5 * sizeof(int));

    for(int i = 0;i < 5;i++)
        p -> pass[i] = i;
    p -> element = 5;

    cudaMalloc(&p_gpu, sizeof(Pass));
    cudaMemcpy(p_gpu, p, sizeof(Pass), cudaMemcpyHostToDevice);

    int numBlocks = 1;
    int threadPerBlock = 512;


    hello<<<numBlocks, threadPerBlock>>>(a_gpu, b_gpu, p_gpu);

    cudaMemcpy(a_host, a_gpu, 5 * sizeof(int), cudaMemcpyDeviceToHost);

    int i;
    for(i = 0;i < 5;i++)
        printf("a[%d]: %d\n", i, a_host[i]);

    cudaFree(p_gpu);
    cudaFree(a_gpu);
    cudaFree(b_gpu);

    free(p);
    free(a_host);

    return(0);
}

1 个答案:

答案 0 :(得分:1)

在这个问题的前24小时内,我们已经看到了三个不同的代码。这个答案解决了最终的演变。

您遇到的根本问题是这种类型的操作:

cudaMalloc(&p_gpu, sizeof(Pass));
cudaMalloc(&p_gpu -> pass, 5 * sizeof(int));

第二个cudaMalloc是非法的。这是尝试取消引用并从主机为设备内存中的指针赋值。将导致段错误。

在设备上分配结构的正确过程包括指向其他​​内存分配的指针如下:

  1. 为结构指针在设备上指向的每个数组或对象分配内存
  2. 将这些分配分配给主机内存
  3. 中的结构副本
  4. 主机内存中的完整初始化结构复制到设备内存
  5. 在这个问题的代码中,这可能如下所示:

    // p_hgpu is the device structure copy in host memory
    // p_gpu is the device structure copy in device memory
    Pass *p_gpu, *p_hgpu;
    p_hgpu = (Pass*)malloc(sizeof(Pass));
    p_hgpu->element = p->element;
    cudaMalloc(&(p_hgpu->pass), sizeof(int) * 5);
    cudaMemcpy(p_hgpu->pass, p->pass, sizeof(int) * 5, cudaMemcpyHostToDevice);
    
    // copy p_hgpu to the device
    cudaMalloc(&p_gpu, sizeof(Pass));
    cudaMemcpy(p_gpu, p_hgpu, sizeof(Pass), cudaMemcpyHostToDevice);
    

    虽然这很简单,但它包含几个细微之处,如果你掌握了指针及其在C ++中的使用,这些细微之处可能是不言而喻的。在这种情况下,这可能是这个难题的缺失部分。