如果我在CUDA中试验共享内存,我不理解它在这段代码中的行为。 我有一个非常基本的内核:
__global__ void sum( int* input, int* output, int size){
int tid = threadIdx.x+blockDim.x*blockIdx.x +
blockDim.x*gridDim.x*blockIdx.y;
extern __shared__ int sdata[];
sdata[tid] = input[tid];
__syncthreads();
output[tid] = input[tid];
}
所有output[]
的输出均为0。但是,如果我注释掉sdata[tid] = input[tid];
,那么输出就可以了,并且等于input[]
。
我在这里做错了什么?我错过了什么吗?
[UPDATE]
好吧,如果我删除标记extern
并给共享数组一个大小,它似乎工作正常。有什么想法吗?
[UPDATE] 我调用内核的方式来自c ++代码,所以我需要将它包装起来从主代码中调用。
kernel.cu
包含内核本身以及包装函数:
void wrapper(int dBlock, int dThread, int* input, int* output, int size){
sum<<<dBlock,dThread>>>(input, output, size);
}
callerfunction.cpp
包含c ++代码和调用包装器的函数。
答案 0 :(得分:1)
如果使用extern限定符,则需要在启动内核时传递共享内存的大小
kernel<<< blocks, threads, size>>>(...)
size参数是以字节为单位的共享内存大小。