在Matlab中转置,重塑和乘以两个矩阵的最快方法是什么?我想做以下事情:
B = B';
B = reshape(B, 20, 5 000 000);
A = A * B
其中A是20 x 20实矩阵,B是2500万x 4实矩阵。使用上面的实现,转置操作比矩阵乘法(在GPU上)慢约4倍。
我听说dgemm看似相关,但不完全是我正在寻找的东西(它允许一个乘法矩阵,转置它们并在单个快速操作中添加步幅(参见LDA参数) )。
我最感兴趣的是A和B都已经是gpuArrays并且我们正在使用现代的nVidia GPU硬件。