访问使用cudaMallocPitch分配的内存

时间:2013-05-02 01:08:07

标签: cuda gpu gpgpu

我正在尝试在cuda中创建一个二维数组并初始化它但是失败了。 这是我的初始化内核:

__global__ void initMap(float* map, size_t pitch, int w, int h, int numX, int numY){
int idx=blockIdx.x*blockDim.x+threadIdx.x;
int idy=blockIdx.y*blockDim.y;
int i;
int j;
for (i=0; i<numX; i++){
    for (j=0; j<numY; j++){
        int idMC=idx+i;
        int idMR=threadIdx.y+j;
        if(idMC<w && idy+idMR<h){
             float* row=(float*)(map+idy+idMR*pitch);
             row[idMC]=0.5;
        }
    }
}

__syncthreads();
}

以下是我如何分配数组并在main中调用初始化内核:

int width=map_size;
int height=map_size;
float* map;
size_t pitch;
checkCudaErrors(cudaMallocPitch(&map, &pitch, width*sizeof(float), height));
int numT=32;
int numBX=(int)ceil((float)width/numT);
int numBY=(int)ceil((float)height/numT);
dim3 numBlocks(numBX, numBY);
dim3 numThr(numT, numT);
initMap <<<numBlocks, numThr>>> (map, pitch/sizeof(float), width, height, 1, 1);
cudaError_t err=cudaGetLastError();
if (err != cudaSuccess) 
    printf("Error: %s\n", cudaGetErrorString(err));
checkCudaErrors(cudaDeviceSynchronize());

基本上,我要做的是将2D数组划分为32x32块,然后将每个块分配给一个块,然后用0.5填充它。但是,当我尝试将数组写入磁盘或从另一个内核访问其元素时,我可以看到那里有很多QNAN,所以我想我没有填满整个阵列而是缺少一些点。

1 个答案:

答案 0 :(得分:1)

这样的事情应该有效:

__global__ void initMap(float* map, size_t pitch, int w, int h, int numX, int numY){
  int col = threadIdx.x + (blockDim.x * blockIdx.x);
  int row = threadIdx.y + (blockDim.y * blockIdx.y);

  if ((row < h) && (col < w)){
    float *myrow = (float *)(((char *)map)+(row*pitch));
    myrow[col] = 0.5f;
}

这假定pitch参数将作为多个字节传递,这是cudaMallocPitch设置它的方式。所以我们要做的第一件事就是将map转换为char指针。然后我们根据选定的行向其添加适当的音调偏移量,并将结果指针转换为float指针。然后我们使用float指针索引到所选行。

因此,您的内核调用应调整为:

initMap <<<numBlocks, numThr>>> (map, pitch, width, height, 1, 1);

请注意,行中索引大于w的任何“幻像”元素都不会被初始化。他们将包含垃圾。但是你不应该担心或者使用这些元素。

当你将这个数组复制回主机时,你应该使用cudaMemcpy2D,如果设置正确将在复制过程中消除幻象元素回到主机,所以应该没有垃圾数据。主机阵列。关于如何正确使用cudaMallocPitch / cudaMemcpy2D,有很多问题。