在将大密集矩阵与其转置相乘时,是否有一种使用cuBlas的有效方法?具体来说,是否存在利用所得矩阵是对称的事实的任何函数,因此将乘法的数量减少了〜2倍。
答案 0 :(得分:1)
您需要标准的BLAS API ?syrk
。
C = alpha * A * A^T + beta * C
对于cuBlas,API名称为cublas<t>syrk
。有关更多详细信息,请参阅cuBlas文档
http://docs.nvidia.com/cuda/cublas/index.html#cublas-lt-t-gt-syrk