以下是IIR code。我需要对代码进行矢量化,以便能够有效地编写NEON代码。
矢量化的例子 非矢量化代码
for(i=0;i<100;i++)
a[i] =a[i]*b[i]; //only one independent multiplication cannot take
//advantage of multiple multiplication units
矢量化代码
for(i=0;i<25;i++)
{
a[i*4] =a[i*4]*b[i*4]; //four independent multiplications can use
a[(i+1)*4] =a[(i+1)*4]*b[(i+1)*4]; // multiple multiplication units to perform the
a[(i+2)*4] =a[(i+2)*4]*b[(i+2)*4]; //operation in parallel
a[(i+3)*4] =a[(i+3)*4]*b[(i+3)*4];
}
请帮助我对下面的for循环进行矢量化,以便通过使用硬件的矢量功能有效地实现代码(我的硬件可以同时执行4次乘法)。
main()
{
for(j=0;j<NUMBQUAD;j++)
{
for(i=2;i<SAMPLES+2 ;i++)
{
w[i] = x[i-2] + a1[j]* w[i-1] + a2[j]*w[i-2];
y[i-2] = w[i] + b1[j]* w[i-1] + b2[j]*w[i-2];
}
w[0]=0;
w[1] =0;
}
}
答案 0 :(得分:1)
一旦你修正(或验证)方程式,你应该注意到方程的每一轮中有4次独立的乘法运算。任务变为找到适当和最少数量的指令,以将输入向量x [...],y [...],w [...]置换到某个寄存器
q0 = | w[i-1] | w[i-2] | w[i-1] | w[i-2]|
q1 = | a1[j] | a2[j] | b1[j] | b2[j] | // vld1.32 {d0,d1}, [r1]!
q2 = q0 .* q1
通过反转for循环可以实现一种更有效的波前并行方法。
x0 = *x++;
w0 = x0 + a*w1 + b*w2; // pipeline warming stage
y0 = w0 + c*w1 + d*w2; //
[REPEAT THIS]
// W2 = W1; W1 = W0;
W0 = y0 + A*W1 + B*W2;
Y0 = W0 + C*W1 + D*W2;
// w2 = w1; w1 = w0;
x0 = *x++;
*output++= Y0;
w0 = x0 + a*w1 + b*w2;
y0 = w0 + c*w1 + d*w2;
[REPEAT ENDS]
W0 = y0 + A*W1 + B*W2; // pipeline cooling stage
Y0 = W0 + C*W1 + D*W2;
*output++= Y0;
虽然在x0-&gt; w0-&gt; y0-> W0-> Y0之间仍存在依赖关系,但在小写和大写表达式之间存在完全双向并行的机会。也可以尝试通过展开循环并进行手动寄存器重命名来摆脱值w2=w1; w1=w0;
。