标签: cuda cublas cula magma
是否可以在CUDA内核中实例化CUDA(CULA或MAGMA)中的lapack例程而不是来自主机? (__设备功能,而不是__global功能) 如果不可能,那么如何在CUDA中实现(_device)线性代数例程? 我的目标是在CUDA中并行运行一些Lapack函数(sgesvd,sgesv ..),我的应用程序中的调用必须来自设备,而不是来自主机。