如何使用blas以最佳方式转置矩阵?

时间:2011-10-16 13:43:05

标签: c cuda blas cublas

我正在进行一些计算,并对不同BLAS实施的力量和弱点进行一些分析。但是我遇到了一个问题。

我正在测试cuBlas,在GPU上做linAlg似乎是个好主意,但是有一个问题。

使用列主格式的cuBlas实现,由于这不是我最终需要的,我很好奇是否有一种方法可以使BLAS进行矩阵转换?

1 个答案:

答案 0 :(得分:10)

BLAS没有内置的矩阵转置例程.CUDA SDK包含一个矩阵转置示例和一篇论文,讨论了执行转置的最佳策略。您最好的策略可能是使用CERTAS的行主要输入和调用的转置输入版本,然后在专业列中执行中间计算,最后使用SDK转置内核执行转置操作。


编辑添加CUBLAS在CUBLAS第5版geam中添加了一个转置例程,它可以在GPU内存中执行矩阵转置,应该被认为是您正在使用的任何架构的最佳选择。