如何在GPU上使用带有CULA的3D矩阵?

时间:2013-05-30 14:10:31

标签: cuda gpu linear algebra cula

所以目前在一些代码的CPU版本中,我有许多看起来如下的内容:

for(int i =0;i<N;i++){

    dgemm(A[i], B[i],C[i], Size[i][0], Size[i][1], Size[i][2], Size[i][3], 'N','T');

}

其中A [i]将是某种尺寸的2D矩阵。

我希望能够在使用CULA的GPU上做到这一点(我不只是做乘法,所以我需要在CULA中进行线性代数运算),例如:

 for(int i =0;i<N;i++){
        status = culaDeviceDgemm('T', 'N', Size[i][0], Size[i][0], Size[i][0], alpha, GlobalMat_d[i], Size[i][0], NG_d[i], Size[i][0], beta, GG_d[i], Size[i][0]);
}

但我希望在程序开始时将我的B存储在GPU上,因为它们没有改变,但我不知道如何去做...或者我如何能够存储我的数组一般所以这是可能的..

我在网上看到过有关使用CUDA的3D矩阵的各种内容,但它们似乎不适用于能够对CULA函数进行函数调用。

无论如何..我真的不知道这样做的最佳方式,任何人都有任何想法?

好的,从下面答案的例子中我得到了:

extern "C" void copyFNFVecs_(double **FNFVecs, int numpulsars, int numcoeff){


  cudaError_t err;
 err = cudaMalloc( (void ***)&GlobalFVecs_d, numpulsars*sizeof(double*) );
 checkCudaError(err);

    for(int i =0; i < numpulsars;i++){
         err = cudaMalloc( (void **) &(GlobalFVecs_d[i]), numcoeff*numcoeff*sizeof(double) );
         checkCudaError(err);    
       //  err = cudaMemcpy( GlobalFVecs_d[i], FNFVecs[i], sizeof(double)*numcoeff*numcoeff, cudaMemcpyHostToDevice );
        // checkCudaError(err); 
        }

}

我已经将double ** GlobalFVecs_d声明为全局..但是当它遇到行时我遇到了一个seg错误

 err = cudaMalloc( (void **) &(GlobalFVecs_d[i]), numcoeff*numcoeff*sizeof(double) );

但它似乎与另一个例子完全相同?

EDIT2:

好的,我意识到它不一样,所以我现在有编译的代码,用:

double **GlobalFVecs_d;
double **GlobalFPVecs_d;

extern "C" void copyFNFVecs_(double **FNFVecs, int numpulsars, int numcoeff){


  cudaError_t err;
  GlobalFPVecs_d = (double **)malloc(numpulsars * sizeof(double*));
 err = cudaMalloc( (void ***)&GlobalFVecs_d, numpulsars*sizeof(double*) );
 checkCudaError(err);

    for(int i =0; i < numpulsars;i++){
         err = cudaMalloc( (void **) &(GlobalFPVecs_d[i]), numcoeff*numcoeff*sizeof(double) );
         checkCudaError(err);    
         err = cudaMemcpy( GlobalFPVecs_d[i], FNFVecs[i], sizeof(double)*numcoeff*numcoeff, cudaMemcpyHostToDevice );
         checkCudaError(err);   
        }

         err = cudaMemcpy( GlobalFVecs_d, GlobalFPVecs_d, sizeof(double*)*numpulsars, cudaMemcpyHostToDevice );
         checkCudaError(err);

}

但如果我现在尝试使用以下方式访问它:

 dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE);
 dim3 dimGrid;//((G + dimBlock.x - 1) / dimBlock.x,(N + dimBlock.y - 1) / dimBlock.y);
 dimGrid.x=(numcoeff + dimBlock.x - 1)/dimBlock.x;
 dimGrid.y = (numcoeff + dimBlock.y - 1)/dimBlock.y;

 for(int i =0; i < numpulsars; i++){
    CopyPPFNF<<<dimGrid, dimBlock>>>(PPFMVec_d, GlobalFVecs_d[i], numpulsars, numcoeff, i);
 }

它反而在此处出现故障,这不是如何获取数据的吗?

1 个答案:

答案 0 :(得分:0)

  1. 使用B
  2. cudaMalloc()分配内存
  3. 使用cudaMemcpy()
  4. 将其从主机复制到设备
  5. 将设备指针传递到内核参数列表
  6. 最后你使用你传递的参数从内核中使用它! 例如:

      1     //  Kernel definition, see also section 4.2.3 of Nvidia Cuda Programming Guide 
      2     __global__  void vecAdd(float* A, float* B, float* C) 
      3     { 
      4        // threadIdx.x is a built-in variable  provided by CUDA at runtime 
      5        int i = threadIdx.x; 
      6        A[i]=0; 
      7        B[i]=i; 
      8        C[i] = A[i] + B[i]; 
      9     } 
      10     
      11     #include  <stdio.h> 
      12     #define  SIZE 10 
      13     int  main() 
      14     { 
      15         int N=SIZE; 
      16         float A[SIZE], B[SIZE], C[SIZE]; 
      17         float *devPtrA; 
      18         float *devPtrB; 
      19         float *devPtrC; 
      20         int memsize= SIZE * sizeof(float); 
      21     
      22         **cudaMalloc((void**)&devPtrA, memsize);** 
      23         cudaMalloc((void**)&devPtrB, memsize); 
      24         cudaMalloc((void**)&devPtrC, memsize); 
      25         **cudaMemcpy(devPtrA, A, memsize,  cudaMemcpyHostToDevice);** 
      26         cudaMemcpy(devPtrB, B, memsize,  cudaMemcpyHostToDevice); 
      27         // __global__ functions are called:  Func<<< Dg, Db, Ns  >>>(parameter); 
      28         **vecAdd<<<1, N>>>(devPtrA,  devPtrB, devPtrC);** 
      29         cudaMemcpy(C, devPtrC, memsize,  cudaMemcpyDeviceToHost); 
      30     
      31         for (int i=0; i<SIZE; i++) 
      32          printf("C[%d]=%f\n",i,C[i]); 
      33     
      34          cudaFree(devPtrA); 
      35         cudaFree(devPtrA); 
      36         cudaFree(devPtrA); 
      37     } 
    

    **区域是您的重要组成部分。取自here的示例。您可能需要查看this问题。

    编辑#1: 首先要声明一个内核函数,你需要在返回类型之前放置关键字__global__,例如

    __global__ void copyFNFVecs_(double **FNFVecs, int numpulsars, int numcoeff)

    此外,我只使用一个指向你所拥有的矩阵的第一个元素的指针。

    double *devPtr

    分配

    cudaMalloc((void*)&devPtr, size)

    然后复制

    cudaMemcpy(devPtr, hostPtr, size, hostToDevice)

    请注意,要计算结构的大小,您需要维度(比如X和Y)以及基础类型元素的大小(比如说double)。

    size_t size = X*Y*sizeof(double)

    sizeof(double *)表示指向不正确的双精度的指针的大小(在32位机器中,指针的大小为4个字节,但double的大小为8个字节)。