Question

我一直在试图弄清楚如何制作我认为是一个简单的内核来获取2d矩阵中的值的平均值，但是我有一些问题让我的思维过程直接就可以了。

根据我的deviceQuery输出，我的GPU有16MP，32cores / mp，块最大为1024x1024x64，我有一个最大线程/块= 1024。

所以，我正在处理一些大型图像。也许5000px x 3500px或类似的东西。我的一个内核是在图像中的所有像素上取平均值。

现有代码将图像存储为2D数组[rows] [cols]。因此，在C中，内核看起来像你期望的那样，循环遍历行，并在cols上循环，计算在中间。

那么如何在CUDA中设置此代码的维度计算部分？我已经查看了SDK中的缩减代码，但这是针对单维数组的。它没有提到如何设置块数和线程数，当你有2D物品时。

我在想我实际上需要像这样设置它，这就是我希望有人能够帮助你的地方：

num_threads=1024;
blocksX = num_cols/sqrt(num_threads);
blocksY = num_rows/sqrt(num_threads);
num_blocks = (num_rows*num_cols)/(blocksX*blocksY);

dim3 dimBlock(blocksX, blocksY, 1);
dim3 dimGrid(num_blocks, 1, 1);

这似乎对设置有意义吗？

然后在内核中，要处理特定的行或列，我必须使用

rowidx =（blockIdx.x * blockDim.x）+ threadId.x colidx =（blockIdx.y * blockDim.y）+ threadId.y

至少我认为这样可以获得行和列。

然后我如何访问内核中的特定行r和列c？在cuda编程指南中，我找到了以下代码：

// Host code int width = 64, height = 64;
float* devPtr; size_t pitch;
cudaMallocPitch(&devPtr, &pitch, width * sizeof(float), height);
MyKernel<<<100, 512>>>(devPtr, pitch, width, height);
// Device code __global__ void MyKernel(float* devPtr, size_t pitch, int width, int height)
{
for (int r = 0; r < height; ++r)
{
float* row = (float*)((char*)devPtr + r * pitch);
for (int c = 0; c < width; ++c)
{
float element = row[c];
}
}
}

这看起来类似于在C中使用malloc来声明2D数组，但它没有提到在自己的内核中访问该数组。我想在我的代码中，我将使用cudaMallocPitch调用，然后执行memcpy将我的数据导入到设备上的2D数组中？

任何提示赞赏！谢谢！

Answer 1

最近，我以下列方式想出了这个问题。

// Grid and block size
const dim3 blockSize(16,16,1);
const dim3 gridSize(numRows, numCols, 1); 
// kernel call
rgba_to_greyscale<<<gridSize, blockSize>>>(d_rgbaImage, d_greyImage, numRows, numCols

gridsize =块数
blocksize =每个块的线程

这是相应的内核

__global__ void rgba_to_greyscale(const uchar4* const rgbaImage,
                       unsigned char* const greyImage,
                       int numRows, int numCols)
{ 
    int idx = blockIdx.x + blockIdx.y * numRows;
    uchar4 pixel     = rgbaImage[idx]; 
    float  intensity = 0.299f * pixel.x + 0.587f * pixel.y + 0.114f * pixel.z;  
    greyImage[idx]   = static_cast<unsigned char>(intensity);   
}

祝你好运!!!

Answer 2

对于像这样的性能应用程序，您需要将2D矩阵信息作为单个数组存储在内存中。因此，如果你有一个M×N矩阵，那么你可以将它存储在一个长度为M * N的单个数组中。

所以如果你想存储2x2矩阵

(1 , 2)
(3 , 4)

然后创建一个数组，使用以下内容初始化第i行和第j列的元素。

int rows=2;
int cols=2;
float* matrix = malloc(sizeof(float)*rows*cols);
matrix[i*cols+j]=yourValue;
//element 0,0
matrix[0*cols+0]=1.0;
//element 0,1
matrix[0*cols+1]=2.0;
//element 1,0
matrix[1*cols+0]=3.0;
//element 1,1
matrix[1*cols+1]=4.0;

这种获取2D数组并以这种方式将其存储为单个连续内存的方式称为以主要顺序存储数据。请参阅维基百科文章here。一旦将数据布局更改为这种格式，就可以使用SDK中显示的缩减，并且您的代码应该快得多，因为您可以在GPU内核代码中进行更多合并读取。

Answer 3

下面是一个简短的代码片段，其中包含我自己代码中的简单内核。浮点指针都是设备指针。希望这有用。

定义并帮助功能：

#define BLOCK_SIZE 16

int iDivUp(int a, int b){
    return (a % b != 0) ? (a / b + 1) : (a / b);
}

块大小计算：

dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE);
dim3 dimGridProj(iDivUp(width,BLOCK_SIZE), iDivUp(height,BLOCK_SIZE));

主持人电话：

calc_residual<<<dimGridProj, dimBlock>>>(d_image1, d_proj1, d_raynorm1, d_resid1, width, height);

内核：

__global__ void calc_residual(float *d_imagep, float *d_projp, float *d_raysump, float *d_residualp, int width, int height)
{
    int iy = blockDim.y * blockIdx.y + threadIdx.y;
if (iy >= height) {
    return;
}
int ix = blockDim.x * blockIdx.x + threadIdx.x;
if (ix >= width) {
    return;
}
int idx = iy * width + ix;
float raysumv = d_raysump[idx];
if (raysumv > 0.001) {
    d_residualp[idx] = (d_projp[idx]-d_imagep[idx])/raysumv;
} 
else{
    d_residualp[idx] = 0;
}
}

搞清楚cuda内核有多少块和线程，以及如何使用它们

3 个答案: