Question

我想在一个程序中调用模板化CUDA内核的动态分配共享内存的不同实例。我的第一个天真的方法是写：

template<typename T>
__global__ void kernel(T* ptr)
{
  extern __shared__ T smem[];
  // calculations here ...                                                                                                                                          
}

template<typename T>
void call_kernel( T* ptr, const int n )
{
  dim3 dimBlock(n), dimGrid;
  kernel<<<dimGrid, dimBlock, n*sizeof(T)>>>(ptr);
}

int main(int argc, char *argv[])
{
  const int n = 32;
  float *float_ptr;
  double *double_ptr;
  cudaMalloc( (void**)&float_ptr, n*sizeof(float) );
  cudaMalloc( (void**)&double_ptr, n*sizeof(double) );

  call_kernel( float_ptr, n );
  call_kernel( double_ptr, n ); // problem, 2nd instantiation

  cudaFree( (void*)float_ptr );
  cudaFree( (void*)double_ptr );
  return 0;
}

但是，此代码无法编译。 nvcc给我以下错误消息：

main.cu(4): error: declaration is incompatible with previous "smem"
(4): here
          detected during:
            instantiation of "void kernel(T *) [with T=double]"
(12): here
            instantiation of "void call_kernel(T *, int) [with T=double]"
(24): here

我知道我遇到了名称冲突，因为共享内存被声明为extern。然而，据我所知，如果我想在运行时定义它的大小，就没有办法解决这个问题。

所以，我的问题是：是否有任何优雅的方式来获得所需的行为？优雅我的意思是没有代码重复等。

Answer 1

动态分配的共享内存实际上只是一个大小（以字节为单位）和为内核设置的指针。所以这样的事情应该有效：

替换这个：

extern __shared__ T smem[];

用这个：

extern __shared__ __align__(sizeof(T)) unsigned char my_smem[];
T *smem = reinterpret_cast<T *>(my_smem);

您可以在programming guide中看到重新构建动态分配的共享内存指针的其他示例，这些指针可以满足其他需求。

编辑：更新了我的回答以反映@njuffa的评论。

Answer 2

_{（@ RobertCrovella＆＃39; s answer的变体）}

NVCC不愿意接受两个同名但不同类型的extern __shared__阵列 - 即使他们从不在彼此的范围内。我们需要通过让我们的模板实例使用相同类型的内核共享内存来满足NVCC，同时让使用它们的内核代码看到它喜欢的类型。

所以我们替换这条指令：

extern __shared__ T smem[];

这一个：

auto smem = shared_memory_proxy<T>();

其中：

template <typename T>
__device__ T* shared_memory_proxy()
{
    // do we need an __align__() here? I don't think so...
    extern __shared__ unsigned char memory[];
    return reinterpret_cast<T*>(memory);
}

在某些设备端代码包含文件中。

优点：

使用地点的单行班。
要记住更简单的语法。
关注点的分离 - 无论是谁阅读内核，都不必考虑为什么他/她会看到extern，对齐说明符，或重新解释投射等等。

修改：这是作为CUDA kernel author's tools仅限标头库的一部分实施的：shared_memory.cuh（其中名为shared_memory::dynamic::proxy()）。< / p>

带有动态共享内存的模板化CUDA内核

2 个答案: