我正在尝试编写一个包含矩阵乘法的CUDA内核函数,如:
__device__ Matrix_Multi(Matrix A,Matrix B,Matrix C);
__global__ void foo(type para){
....
Matrix_Multi(Matrix A,Matrix B,Matrix C);
....
}
我想加速矩阵乘法运算。我有两个选择:
首先,使用 Cublas 库。
其次,编写一个用于矩阵乘法的内核,并在foo()
内调用它。
我在两种情况下都失败了。
有人可以帮忙吗?
答案 0 :(得分:1)
我建议你不要在此时编写自己的mat-mul内核。试试cublas方式。
cublas lib只能在内核中为计算能力至少等于3.5的设备调用。否则它只能从主机端调用。你可以在使用cublas lib之前检查你的cc版本。