假设我有一个这样的矩阵C 31x8:
[C0_0 C0_1 C0_2 ... C0_7]
[C1_0 C1_1 C1_2 ... C1_7]
.
.
.
[C30_0 C30_1 C30_3 ... C30_7]
使用AVX-512指令将一行C矩阵设置到寄存器中。
如果C矩阵是行主要的,我可以使用:
register __m512d R00, R01,...,R30;
R00 = _mm512_loadu_pd (&C[0])
R01 = _mm512_loadu_pd (&C[8])
.
.
.
R30 = _mm512_loadu_pd (&C[240])
但是如果C是矩阵列,我不知道该怎么办。
如果C矩阵是 column-major ,请帮助我在寄存器中设置一行C矩阵。