我正在尝试制作一个非常简单的程序,以便执行矩阵添加。我将代码分成两个文件,一个main.cu文件和一个matrix.cuh头文件。 代码是:
在main.cu:
#include <iostream>
#include <cuda.h>
#include "Matriz.cuh"
using std:: cout;
int main(void)
{
Matriz A;
Matriz B;
Matriz *C = new Matriz;
int lin = 10;
int col = 10;
A.lin = lin;
A.col = col;
B.lin = lin;
B.col = col;
C->lin = lin;
C->col = col;
C->matriz = new double[lin*col];
A.matriz = new double[lin*col];
B.matriz = new double[lin*col];
for (int ii = 0; ii < lin; ii++)
for (int jj = 0; jj < col; jj++)
{
A.matriz[jj*A.lin + ii] = 1./(float)(10.*jj + ii + 10.0);
B.matriz[jj*B.lin + ii] = (float)(jj + ii + 1);
}
somaMatriz(A, B, C);
for (int ii = 0; ii < lin; ii++)
{
for (int jj = 0; jj < col; jj++)
cout << C->matriz[jj*C->lin + jj] << " ";
cout << "\n";
}
return 0;
}
在matrix.cuh:
#include <cuda.h>
#include <iostream>
using std::cout;
#ifndef MATRIZ_CUH_
#define MATRIZ_CUH_
typedef struct{
double *matriz;
int lin;
int col;
} Matriz;
__global__ void addMatrix(const Matriz A, const Matriz B, Matriz C)
{
int idx = threadIdx.x + blockDim.x*gridDim.x;
int idy = threadIdx.y + blockDim.y*gridDim.y;
C.matriz[C.lin*idy + idx] = A.matriz[A.lin*idx + idy] + B.matriz[B.lin*idx + idy];
}
void somaMatriz(const Matriz A, const Matriz B, Matriz *C)
{
Matriz dA;
Matriz dB;
Matriz dC;
int BLOCK_SIZE = A.lin;
dA.lin = A.lin;
dA.col = A.col;
dB.lin = B.lin;
dB.col = B.col;
dC.lin = C->lin;
dC.col = C->col;
cudaMalloc((void**)&dA.matriz, dA.lin*dA.col*sizeof(double));
cudaMalloc((void**)&dB.matriz, dB.lin*dB.col*sizeof(double));
cudaMalloc((void**)&dC.matriz, dC.lin*dC.col*sizeof(double));
cudaMemcpy(dA.matriz, A.matriz, dA.lin*dA.col*sizeof(double), cudaMemcpyHostToDevice);
cudaMemcpy(dB.matriz, B.matriz, dB.lin*dB.col*sizeof(double), cudaMemcpyHostToDevice);
dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE);
dim3 dimGrid(dA.lin/dimBlock.x, dA.col/dimBlock.y);
addMatrix<<<dimGrid, dimBlock>>>(dA, dB, dC);
cudaMemcpy(C->matriz, dC.matriz, dC.lin*dC.col*sizeof(double), cudaMemcpyDeviceToHost);
cudaFree(dA.matriz);
cudaFree(dB.matriz);
cudaFree(dC.matriz);
return;
}
#endif /* MATRIZ_CUH_ */
我得到的结果:无论我做什么,Matrix C都充满了。 我正在使用这个程序来了解如何在GPU程序中使用可变大小的矩阵。 我的代码出了什么问题?
答案 0 :(得分:1)
如果您在使用CUDA代码时遇到问题,那么执行proper cuda error checking并使用cuda-memcheck
运行代码是一种很好的做法。当我使用cuda-memcheck运行代码时,我得到内核正在尝试进行越界读操作的指示。由于您的内核非常简单,这意味着您的索引计算必须不正确。
您的程序至少需要进行2次更改才能使其适用于小方阵:
内核中A,B和C的索引计算应该都是相同的:
C.matriz[C.lin*idy + idx] = A.matriz[A.lin*idx + idy] + B.matriz[B.lin*idx + idy];
像这样:
C.matriz[C.lin*idy + idx] = A.matriz[A.lin*idy + idx] + B.matriz[B.lin*idy + idx];
内核中的x / y索引创建不正确:
int idx = threadIdx.x + blockDim.x*gridDim.x;
int idy = threadIdx.y + blockDim.y*gridDim.y;
他们应该是:
int idx = threadIdx.x + blockDim.x*blockIdx.x;
int idy = threadIdx.y + blockDim.y*blockIdx.y;
通过上述变化,我能够获得理性的输出。
您的设置代码似乎也没有正确处理更大的矩阵:
int BLOCK_SIZE = A.lin;
...
dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE);
dim3 dimGrid(dA.lin/dimBlock.x, dA.col/dimBlock.y);
您可能需要以下内容:
int BLOCK_SIZE = 16;
...
dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE);
dim3 dimGrid((dA.lin + dimBlock.x - 1)/dimBlock.x, (dA.col + dimBlock.y -1)/dimBlock.y);
通过这些更改,您应该向内核添加有效的线程检查,如下所示:
__global__ void addMatrix(const Matriz A, const Matriz B, Matriz C)
{
int idx = threadIdx.x + blockDim.x*blockIdx.x;
int idy = threadIdx.y + blockDim.y*blockIdx.y;
if ((idx < A.col) && (idy < A.lin))
C.matriz[C.lin*idy + idx] = A.matriz[A.lin*idx + idy] + B.matriz[B.lin*idx + idy];
}
我还没有验证您是否正确地将所有维度与适当的行或林限制进行比较。这是验证非方形矩阵的其他因素。