我想使用SIMD指令对下面的fortran进行矢量化
!DIR$ SIMD
DO IELEM = 1 , NELEM
X(IKLE(IELEM)) = X(IKLE(IELEM)) + W(IELEM)
ENDDO
我使用了avx2指令。该程序由
编译ifort main_vec.f -simd -g -pg -O2 -vec-report6 -o vec.out -xcore-avx2 -align array32byte
然后我想在VECTORLENGTH(n)
之后添加SIMD
子句。
如果没有这样的条款或n = 2,4,则该信息不会提供有关展开因子的信息
如果n = 8,16,vectorization support: unroll factor set to 2
。
我已经阅读了英特尔关于vectorization support: unroll factor set to xxxx的文章所以我猜这个循环已经展开了类似的内容:
DO IELEM = 1 , NELEM, 2
X(IKLE(IELEM)) = X(IKLE(IELEM)) + W(IELEM)
X(IKLE(IELEM+1)) = X(IKLE(IELEM+1)) + W(IELEM+1)
ENDDO
然后2 X进入向量寄存器,2 W进入另一个,进行加法。 但VECTORLENGTH的价值如何运作?或许我真的不明白矢量长度是什么意思。
由于我使用avx2指令,对于DOUBLE PRECISION
类型X
,可以达到的最大长度是多少?
这里是SSE2,VL = 8循环汇编的一部分,编译器告诉我unroll factor是2.但是它使用了4个寄存器而不是2个。
.loc 1 114 is_stmt 1
movslq main_vec_$IKLE.0.1(,%rdx,4), %rsi #114.9
..LN202:
movslq 4+main_vec_$IKLE.0.1(,%rdx,4), %rdi #114.9
..LN203:
movslq 8+main_vec_$IKLE.0.1(,%rdx,4), %r8 #114.9
..LN204:
movslq 12+main_vec_$IKLE.0.1(,%rdx,4), %r9 #114.9
..LN205:
movsd -8+main_vec_$X.0.1(,%rsi,8), %xmm0 #114.26
..LN206:
movslq 16+main_vec_$IKLE.0.1(,%rdx,4), %r10 #114.9
..LN207:
movhpd -8+main_vec_$X.0.1(,%rdi,8), %xmm0 #114.26
..LN208:
movslq 20+main_vec_$IKLE.0.1(,%rdx,4), %r11 #114.9
..LN209:
movsd -8+main_vec_$X.0.1(,%r8,8), %xmm1 #114.26
..LN210:
movslq 24+main_vec_$IKLE.0.1(,%rdx,4), %r14 #114.9
..LN211:
addpd main_vec_$W.0.1(,%rdx,8), %xmm0 #114.9
..LN212:
movhpd -8+main_vec_$X.0.1(,%r9,8), %xmm1 #114.26
..LN213:
..LN214:
movslq 28+main_vec_$IKLE.0.1(,%rdx,4), %r15 #114.9
..LN215:
movsd -8+main_vec_$X.0.1(,%r10,8), %xmm2 #114.26
..LN216:
addpd 16+main_vec_$W.0.1(,%rdx,8), %xmm1 #114.9
..LN217:
movhpd -8+main_vec_$X.0.1(,%r11,8), %xmm2 #114.26
..LN218:
..LN219:
movsd -8+main_vec_$X.0.1(,%r14,8), %xmm3 #114.26
..LN220:
addpd 32+main_vec_$W.0.1(,%rdx,8), %xmm2 #114.9
..LN221:
movhpd -8+main_vec_$X.0.1(,%r15,8), %xmm3 #114.26
..LN222:
..LN223:
addpd 48+main_vec_$W.0.1(,%rdx,8), %xmm3 #114.9
..LN224:
movsd %xmm0, -8+main_vec_$X.0.1(,%rsi,8) #114.9
..LN225:
.loc 1 113 is_stmt 1
addq $8, %rdx #113.7
..LN226:
.loc 1 114 is_stmt 1
psrldq $8, %xmm0 #114.9
..LN227:
.loc 1 113 is_stmt 1
cmpq $26000, %rdx #113.7
..LN228:
.loc 1 114 is_stmt 1
movsd %xmm0, -8+main_vec_$X.0.1(,%rdi,8) #114.9
..LN229:
movsd %xmm1, -8+main_vec_$X.0.1(,%r8,8) #114.9
..LN230:
psrldq $8, %xmm1 #114.9
..LN231:
movsd %xmm1, -8+main_vec_$X.0.1(,%r9,8) #114.9
..LN232:
movsd %xmm2, -8+main_vec_$X.0.1(,%r10,8) #114.9
..LN233:
psrldq $8, %xmm2 #114.9
..LN234:
movsd %xmm2, -8+main_vec_$X.0.1(,%r11,8) #114.9
..LN235:
movsd %xmm3, -8+main_vec_$X.0.1(,%r14,8) #114.9
..LN236:
psrldq $8, %xmm3 #114.9
..LN237:
movsd %xmm3, -8+main_vec_$X.0.1(,%r15,8) #114.9
..LN238:
答案 0 :(得分:6)
1)向量长度 N是在"向量化"之后可以并行执行的元素/迭代的数量。你的循环(通常通过将数组X的N个元素放入单个向量寄存器并通过向量指令完全处理它们)。为简化起见,将Vector Length视为此公式给出的值:
Vector Length (abbreviated VL) = Vector Register Width / Sizeof (data type)
对于AVX2,矢量寄存器宽度= 256位。 Sizeof(双精度)= 8字节= 64位。因此:
Vector Length (double FP, avx2) = 256 / 64 = 4
$ DIR SIMD VECTORLENGTH(N)基本上强制编译器使用指定的向量长度(并将数组X的N个元素放入单个向量寄存器)。就是这样。
2)展开和矢量化关系。为简化起见,请将展开和矢量化视为通常无关(有些"正交")优化技术。
如果你的循环以M因子展开(M可能是2,4,......),那么它并不意味着完全使用了向量寄存器而且不意味着您的循环在任何意义上都是并行化的。这意味着原始循环迭代的M个实例已被组合成单个迭代;并且在给定的新的" unwinded" /"展开"迭代旧的迭代迭代按顺序执行(所以你的猜测示例绝对正确)。
展开的目的通常是使循环更多"微架构/内存友好"。更详细地说:通过使循环迭代更多" fat"通常,您可以改善CPU资源压力与内存/缓存资源压力之间的平衡,尤其是在展开之后,您可以更有效地重用寄存器中的某些数据。
3)展开+矢量化。编译器同时矢量化(使用VL = N)并展开(通过M)某些循环并不罕见。因此,优化循环中的迭代次数小于原始循环中的迭代次数大约系数 NxM ,但并行处理的元素数量(同时在给定时刻内)将仅为N. 因此,在您的示例中,如果循环使用VL = 4进行矢量化并且展开2,那么它的伪代码可能如下所示:
DO IELEM = 1 , NELEM, 8
[X(IKLE(IELEM)),X(IKLE(IELEM+2)), X(IKLE(IELEM+4)), X(IKLE(IELEM+6))] = ...
[X(IKLE(IELEM+1)),X(IKLE(IELEM+3)), X(IKLE(IELEM+5)), X(IKLE(IELEM+7))] = ...
ENDDO
,方括号"对应"向量注册内容。
4)反对展开的矢量化:
5)P.S。还有第三个维度(我不想谈论它)。
当用户请求的矢量长度大于给定硬件上可能的矢量长度时(让我们说为双FP的avx2平台指定矢量长度(16))或者当你混合不同类型时,编译器可以(或不能) )开始使用"虚拟向量寄存器的概念"并开始做双/四泵。 M-pump是一种展开方式,但仅适用于单指令(即泵送导致重复单指令,而展开则导致重复整个循环体)。您可以尝试阅读最近的OpenMP书籍中的m-pumping,如给定的。因此,在某些情况下,你可能最终会叠加a)矢量化,b)展开和c)双泵浦,但它不常见,我避免强制执行矢量长度> 2 * ISA_VectorLength。