标签: cuda gpu cublas
cuBLAS提供了用于矩阵乘法cublasGemmEx()和cublasLtMatmul()的API,这些方法针对不同的矩阵大小,数据类型和其他参数启动了不同的内核。
cublasGemmEx()
cublasLtMatmul()
有没有办法(以编程方式)知道在引擎盖下启动了哪个特定内核?