CUDA阵列缩减

时间:2013-06-11 05:17:23

标签: arrays vector cuda reduction

我知道有很多类似于已经回答过的问题,但除了我可能错误地索引某些东西之外,我一直无法将任何非常有用的东西拼凑起来。

我正在尝试将输入向量A的顺序寻址减少预先形成为输出向量B.

这里有完整的代码http://pastebin.com/7UGadgjX,但这是内核:

__global__ void vectorSum(int *A, int *B, int numElements) {
  extern __shared__ int S[];
  // Each thread loads one element from global to shared memory
  int tid = threadIdx.x;
  int i = blockDim.x * blockIdx.x + threadIdx.x;
  if (i < numElements) {
    S[tid] = A[i];
    __syncthreads();
    // Reduce in shared memory
    for (int t = blockDim.x/2; t > 0; t>>=1) {
      if (tid < t) {
        S[tid] += S[tid + t];
      }
      __syncthreads();
    }
    if (tid == 0) B[blockIdx.x] = S[0];
  }
}

这些是内核启动语句:

// Launch the Vector Summation CUDA Kernel
  int threadsPerBlock = 256;
  int blocksPerGrid =(numElements + threadsPerBlock - 1) / threadsPerBlock;
  vectorSum<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, numElements);

我收到一个未指定的启动错误,我读过的错误类似于段错误。我一直在密切关注nvidia简化文档,并试图将我的内核保持在numElements的范围内,但考虑到代码的简单性,我似乎错过了一些关键。

1 个答案:

答案 0 :(得分:2)

您的问题是还原内核需要动态分配的共享内存才能正常运行,但您的内核启动并未指定任何内核。结果是超出限制/非法共享内存访问,这会中止内核。

在CUDA运行时API语法中,内核启动语句具有四个参数。前两个是发射的网格和块尺寸。后两者是可选的,默认值为零,但指定动态分配的共享内存大小和流。

要解决此问题,请按以下步骤更改启动代码:

// Launch the Vector Summation CUDA Kernel
  int threadsPerBlock = 256;
  int blocksPerGrid =(numElements + threadsPerBlock - 1) / threadsPerBlock;
  size_t shmsz = (size_t)threadsPerBlock * sizeof(int);
  vectorSum<<<blocksPerGrid, threadsPerBlock, shmsz>>>(d_A, d_B, numElements);

[免责声明:用浏览器编写的代码,未编译或测试,使用风险自负]

这至少可以解决代码中最明显的问题。