在CUDA内核中调用全局函数

时间:2013-08-26 09:02:30

标签: cuda

我正在尝试编写一个包含矩阵乘法的CUDA内核函数,如:

__device__ Matrix_Multi(Matrix A,Matrix B,Matrix C);

 __global__ void foo(type para){
       ....
       Matrix_Multi(Matrix A,Matrix B,Matrix C);
       ....
}

我想加速矩阵乘法运算。我有两个选择:

首先,使用 Cublas 库。 其次,编写一个用于矩阵乘法的内核,并在foo()内调用它。

我在两种情况下都失败了。

有人可以帮忙吗?

1 个答案:

答案 0 :(得分:1)

我建议你不要在此时编写自己的mat-mul内核。试试cublas方式。

cublas lib只能在内核中为计算能力至少等于3.5的设备调用。否则它只能从主机端调用。你可以在使用cublas lib之前检查你的cc版本。