应用错误收集

GPU系统上BLAS / LAPACK或其他线性代数路由的最快可用实现是什么？

时间：2012-09-04 20:39:36

标签： gpu linear-algebra gpgpu lapack blas

例如，nVidia拥有CUBLAS，它承诺加速7-14倍。天真地，这远不及任何nVidia的GPU卡的理论吞吐量。在GPU上加速线性代数有哪些挑战，是否有更快的线性代数路由可用？

1 个答案:

答案 0 :(得分：0)

据我所知，CUBLAS是Nvidia GPU最快的线性代数实现。如果您需要LAPACK功能，那就是CULAPACK。

请注意，CUBLAS仅涵盖密集线性代数;对于稀疏矩阵，有CUSPARSE（也作为CUDA工具包的一部分提供）。

加速很大程度上取决于您正在操作的数据类型，以及您正在执行的特定操作。一些线性代数运算很好地并行化，而其他运算并不是因为它们本身是连续的。并行架构的数值算法的优化（并且已经持续数十年）是一个持续的研究领域 - 因此算法的性能不断提高。