标签: matrix x86 transpose sse intrinsics
假设我们以主行顺序存储了此2d(3,4)数组:
0 1 2 3 | 4 5 6 7 | 8 9 10 11
我的目标是将其更改为列的主要顺序:
0 4 8 | 1 5 9 | 2 6 10 | 3 7 11
->最快的方法是什么?
我尝试过的:
是否有我不知道的:D