我正在进行一些计算,并对不同BLAS实施的力量和弱点进行一些分析。但是我遇到了一个问题。
我正在测试cuBlas,在GPU上做linAlg似乎是个好主意,但是有一个问题。
使用列主格式的cuBlas实现,由于这不是我最终需要的,我很好奇是否有一种方法可以使BLAS进行矩阵转换?
答案 0 :(得分:10)
BLAS没有内置的矩阵转置例程.CUDA SDK包含一个矩阵转置示例和一篇论文,讨论了执行转置的最佳策略。您最好的策略可能是使用CERTAS的行主要输入和调用的转置输入版本,然后在专业列中执行中间计算,最后使用SDK转置内核执行转置操作。
编辑添加CUBLAS在CUBLAS第5版geam
中添加了一个转置例程,它可以在GPU内存中执行矩阵转置,应该被认为是您正在使用的任何架构的最佳选择。