Question

我正在尝试用cublas替换我的gpu块矩阵乘法，但我没有得到我对2x2测试用例的期望：

#include "cuda_runtime.h"
#include "cublas_v2.h"
#include "stdio.h"
#include "omp.h"


int main(int argc, char **argv) {

  const int SZ = 2;
  const size_t MB = SZ*SZ*sizeof(float);

  cudaSetDevice(0);

  float *m1, *m2, *m3;
  float *m1_, *m2_, *m3_;

  unsigned int i, j;

  m1 = (float *)malloc(MB);
  m2 = (float *)malloc(MB);
  m3 = (float *)malloc(MB);

  cudaMalloc((float **)&m1_, MB);
  cudaMalloc((float **)&m2_, MB);
  cudaMalloc((float **)&m3_, MB);

  for (i=0; i<SZ*SZ; i++) {
    j = (int) (i==1);
    m1[i] = j;
    j = (int) (i==3);
    m3[i] = j;
    printf("m1[%d]=%f m3[%d]=%f\n",i,m1[i],i,m3[i]);
  }

  cublasHandle_t handle;
  cublasCreate(&handle);

  cublasSetMatrix(SZ,SZ,MB,m1,SZ,m1_,SZ);
  cublasSetMatrix(SZ,SZ,MB,m3,SZ,m3_,SZ);

  float al = 1.0f;
  float bt = 0.0f;

  cublasSgemm(handle,CUBLAS_OP_N,CUBLAS_OP_N,SZ,SZ,SZ,&al,m3_,SZ,m1_,SZ,&bt,m2_,SZ);
  printf("\n%s\n\n", cudaGetErrorString(cudaDeviceSynchronize()));
  cublasGetMatrix(SZ,SZ,MB,m2_,SZ,m2,SZ);

  for (i=0; i<SZ*SZ; i++)
    printf("m2[%d]=%f\n",i,m2[i]);

  free(m1);
  free(m2);
  free(m3);

  cublasDestroy(handle);

  cudaFree(m1_);
  cudaFree(m2_);
  cudaFree(m3_);


  cudaDeviceReset();

  return 0;
}

所以我希望m2返回以下矩阵：

[0 1
 0 0]

是

的乘法结果

[0 1
 0 0]

和

[0 0
 0 1]

我正在使用m1和m3的反转顺序，以便在检索到m2时给出正确的输出，因为cublas {Set / Get}矩阵在列中工作 - 重大的。但这是代码的输出：

m1[0]=0.000000 m3[0]=0.000000
m1[1]=1.000000 m3[1]=0.000000
m1[2]=0.000000 m3[2]=0.000000
m1[3]=0.000000 m3[3]=1.000000

no error

m2[0]=0.000000
m2[1]=0.000000
m2[2]=0.000000
m2[3]=0.000000

我不知道我在这里做错了什么;我非常感谢你的意见。

Answer 1

cublasGetMatrix 的原型是：

DefaultListModel

elemSize 应该是Matrix的一个元素的大小（即cublasStatus_t cublasGetMatrix(int rows, int cols, int elemSize, const void *A, int lda, void *B, int ldb);）。 cublasSetMatrix ：

也是如此

sizeof(float)

cublas矩阵乘法不如预期

1 个答案: