Question

在cuda c编程指南文档中有一个显示二维数组的示例：

// Kernel definition
__global__ void MatAdd(float A[N][N], float B[N][N], float C[N][N])
{
int i = blockIdx.x * blockDim.x + threadIdx.x;
int j = blockIdx.y * blockDim.y + threadIdx.y;
if (i < N && j < N)
C[i][j] = A[i][j] + B[i][j];
}

int main()
{
...
// Kernel invocation
dim3 threadsPerBlock(16, 16);
dim3 numBlocks(N / threadsPerBlock.x, N / threadsPerBlock.y);
MatAdd<<<numBlocks, threadsPerBlock>>>(A, B, C);
...
}

我使用下面表格的2d数组并正常工作：

dim3 grid[COLUMNS][ROWS];
kernel_Matrix<<<grid,1>>>(dev_strA, dev_strB, dev_Matrix);

__global__ void add(int *a, int *b, int *c)
{
int x = blockIdx.x;
int y = blockIdx.y;
int i = (COLUMNS*y) + x;
c[i] = a[i] + b[i];
}

有一种方法可以用[] []定义实现2d数组吗？我以这种方式测试但不起作用。

Answer 1

dim3不是数组，而是在CUDA头文件（vector_types.h）中定义的结构。该结构用于在全局函数的执行配置中指定GRID的维度，即在<<< >>>中。它没有保留“真正的”块，它只是配置了许多将要执行的块。

初始化此结构的两种方式（据我所知）是：
1. dim3 grid(x, y, z);
2. dim3 grid = {x, y, z};

修改初始化代码dim3初始化并将数组传递给内核函数，以便能够通过[][]访问其元素：

float A[N][N]; float B[N][N]; float C[N][N]; float (*d_A)[N]; //pointers to arrays of dimension N float (*d_B)[N]; float (*d_C)[N]; for(int i = 0; i < N; i++) { for(int j = 0; j < N; j++) { A[i][j] = i; B[i][j] = j; } } //allocation cudaMalloc((void**)&d_A, (N*N)*sizeof(float)); cudaMalloc((void**)&d_B, (N*N)*sizeof(float)); cudaMalloc((void**)&d_C, (N*N)*sizeof(float)); //copying from host to device cudaMemcpy(d_A, A, (N*N)*sizeof(float), cudaMemcpyHostToDevice); cudaMemcpy(d_B, B, (N*N)*sizeof(float), cudaMemcpyHostToDevice); cudaMemcpy(d_C, C, (N*N)*sizeof(float), cudaMemcpyHostToDevice); // Kernel invocation dim3 threadsPerBlock(16, 16); dim3 numBlocks(N / threadsPerBlock.x, N / threadsPerBlock.y); MatAdd<<<numBlocks, threadsPerBlock>>>(d_A, d_B, d_C); //copying from device to host cudaMemcpy(A, (d_A), (N*N)*sizeof(float), cudaMemcpyDeviceToHost); cudaMemcpy(B, (d_B), (N*N)*sizeof(float), cudaMemcpyDeviceToHost); cudaMemcpy(C, (d_C), (N*N)*sizeof(float), cudaMemcpyDeviceToHost);

使用CUDA创建2D数组

1 个答案: