Matrix矩形部分转置Cuda

时间:2015-03-17 23:36:44

标签: c++ matrix cuda transpose

我正在将Cuda程序写入Transpose Square Matrix,这个想法是根据矩阵的大小分两部分进行的;使用Tile将矩阵大小切割成均匀大小,并保留矩形部分左侧我将其单独转置Ex:67 x 67矩阵与平铺:32,第一部分是64x64转置,然后第二部分是3x67。

我的问题在于矩形部分, 第一个下面的代码显示了具有定义值的主代码:

const int TILE_DIM = 32;
const int BLOCK_ROWS = 8;
const int NUM_REPS = 100;

const int Nx = 2024; //size of the matrix
const int Ny = 2024;

int main(int argc, char **argv)
{
const int nx = Nx;
const int ny = Ny; // Size of the Arrays
const int mem_size = nx*ny*sizeof(int);// Size of the Orig.Arr

int *h_idata = (int*)malloc(mem_size); // original Host Arr.

int *d_idata; //device Arr.
checkCuda(cudaMalloc(&d_idata, mem_size));

dim3 dimGridX(nx / TILE_DIM, 1, 1); //grid dimension used
dim3 dimBlockX(TILE_DIM, 1, 1); // number of threads used

// the Kernel Function for only the rectangle
EdgeTransposeX << < dimGrid, dimBlock >> >(d_idata);
cudaEventRecord(startEvent, 0);
cudaEventRecord(stopEvent, 0);
cudaEventSynchronize(stopEvent);
cudaEventElapsedTime(&ms, startEvent, stopEvent);
cudaMemcpy(h_idata, d_idata, mem_size, cudaMemcpyDeviceToHost);

内核代码我被建议不要使用共享,所以下面是我的工作方式:

__global__ void EdgeTransposeX(int *idata)
{

    int tile_C[Edge][Nx];
    int tile_V[Nx][Edge];

    int x = blockIdx.x * TILE_DIM + threadIdx.x;

    if (x == (nEven - 1))
    {

        for (int j = 0; j < Nx; j++)
            for (int i = 1; i <= Edge; i++)
            {

            tile_V[j][i - 1] = idata[j*Nx + (x + i)];
             tile_C[i - 1][j] = idata[(x + i)*Nx + j];}

         __syncthreads();

        for (int j = 0; j < Nx; j++)
          for (int i = 1; i <= Edge; i++)
         {
            idata[j*Nx + (x + i)] = tile_C[i - 1][j];
            idata[(x + i)*Nx + j] = tile_V[j][i - 1];}

       } }

代码工作正常,直到矩阵大小达到1025,之后它停止工作,任何想法为什么?我在这里错过了什么吗?

1 个答案:

答案 0 :(得分:1)

你的二维数组tile_C和tile_V被动态地存储在GPU的本地存储器中。每个线程的本地内存量为512KB。验证每个线程没有使用超过512KB的本地内存。

在设备代码中声明的自动变量没有任何设备, 本节中描述的共享常量限定符通常位于寄存器中。但是在某些情况下,编译器可能会选择将其放在本地内存中。该片段取自&#34; CUDA C PROGRAMMING GUIDE 2015&#34; pag 89.

我的建议是您使用可视化分析器来检查占用率,寄存器和本地内存使用情况。

此链接可能对您有所帮助:link

我使用2D中的cuda曲面实现了方形矩阵的转置,它适用于2到16384的大小,功率增量为2。如果您不介意实现无平铺版本,我推荐这种方法。