标签: gpu linear-algebra gpgpu lapack blas
答案 0 :(得分:0)
据我所知,CUBLAS是Nvidia GPU最快的线性代数实现。如果您需要LAPACK功能,那就是CULAPACK。
请注意,CUBLAS仅涵盖密集线性代数;对于稀疏矩阵,有CUSPARSE(也作为CUDA工具包的一部分提供)。
加速很大程度上取决于您正在操作的数据类型,以及您正在执行的特定操作。一些线性代数运算很好地并行化,而其他运算并不是因为它们本身是连续的。并行架构的数值算法的优化(并且已经持续数十年)是一个持续的研究领域 - 因此算法的性能不断提高。