Question

我正在尝试编写一个包含矩阵乘法的CUDA内核函数，如：

__device__ Matrix_Multi(Matrix A,Matrix B,Matrix C);

 __global__ void foo(type para){
       ....
       Matrix_Multi(Matrix A,Matrix B,Matrix C);
       ....
}

我想加速矩阵乘法运算。我有两个选择：

首先，使用 Cublas 库。其次，编写一个用于矩阵乘法的内核，并在foo()内调用它。

我在两种情况下都失败了。

有人可以帮忙吗？

Answer 1

我建议你不要在此时编写自己的mat-mul内核。试试cublas方式。

cublas lib只能在内核中为计算能力至少等于3.5的设备调用。否则它只能从主机端调用。你可以在使用cublas lib之前检查你的cc版本。

在CUDA内核中调用全局函数

1 个答案: