无法使用cublasXt

时间:2015-01-12 11:23:05

标签: cuda cublas

我使用cublasXt尝试了以下简单程序来乘以两个矩阵。我得到零输出。有人能让我知道为什么吗?我的电脑通常可以使用其他cuda库,我有两个GPU。我的机器是64位,正如cublasXt所要求的那样。

顺便说一下,我检查过程序中没有任何函数调用返回错误。

#include <stdio.h>
#include "cublasXt.h"
#include <curand.h>

void fill(double* &x, long m, long n, double val) {
  x = new double[m * n];
  for (long i = 0; i < m; ++i) {
    for (long j = 0; j < n; ++j) {
      x[i * n + j] = val;
    }
  }
}

int main() {
  cublasXtHandle_t xt_;
  cublasXtCreate(&xt_);

  double *A, *B, *C;
  long m = 10, n = 10, k = 20;

  fill(A, m, k, 0.2);
  fill(B, k, n, 0.3);
  fill(C, m, n, 0.0);

  double alpha = 1.0;
  double beta = 0.0;

  cublasXtDgemm(xt_, CUBLAS_OP_N, CUBLAS_OP_N,
    m, n, k, &alpha, A, m, B, k, &beta, C, m
  );

  cudaDeviceSynchronize();

  for (int i = 0; i < m; ++i) {
    for (int j = 0; j < n; ++j) {
      printf ("%lf ", C[i *n + j]);
    }
    printf ("\n");
  }

  cublasXtDestroy(xt_);
  return 0;
}

1 个答案:

答案 0 :(得分:1)

您的代码的第一个问题是您没有致电cublasXtDeviceSelect。这是cublasXt代码的必要部分,告诉CUBLAS运行时要使用多少设备以及使用哪些设备。

作为一个简单的证明点,请在创建句柄后立即添加以下内容:

if(cublasXtCreate(&xt_) != CUBLAS_STATUS_SUCCESS) {printf("handle create fail\n"); return 1;}
int devices[1] = { 0 };  // add this line
if(cublasXtDeviceSelect(xt_, 1, devices) != CUBLAS_STATUS_SUCCESS) {printf("set devices fail\n"); return 1;} // add this line

这会导致输出从全零变为全1.2(尽管只使用1个GPU)

但是,您可能希望阅读上面链接的文档部分(例如,如果您要使用2个GPU,并且它们的类型正确)。此时,包含在工具包中的cublasXt功能,对于多GPU使用仅限于2个设备(但请注意我的评论),这些2个GPU必须位于双GPU板上,例如Tesla K10或GeForce GTX 690(我认为Titan Z或Tesla K80也应该可以使用,只是为了选择其他例子)。

许可的其他详细信息为here。您可以获得对“GPU”限制较少的“Premier”软件包的评估版本。