我正在尝试使用NEON优化OpenCV代码的某些部分。这是我工作的原始代码块。 (注意:如果它有任何重要性,你可以在“opencvfolder / modules / video / src / lkpyramid.cpp”找到完整的源代码。它是一个对象跟踪算法的实现。)
for( ; x < colsn; x++ )
{
deriv_type t0 = (deriv_type)(trow0[x+cn] - trow0[x-cn]);
deriv_type t1 = (deriv_type)((trow1[x+cn] + trow1[x-cn])*3 + trow1[x]*10);
drow[x*2] = t0; drow[x*2+1] = t1;
}
在此代码中,deriv_type的大小为2个字节。 这是我写的NEON汇编。使用原始代码,我测量10-11 fps。有了NEON,情况更糟,我只能得到5-6 fps。我对NEON并不是很了解,可能这段代码中有很多错误。我哪里做错了?感谢
for( ; x < colsn; x+=4 )
{
__asm__ __volatile__(
"vld1.16 d2, [%2] \n\t" // d2 = trow0[x+cn]
"vld1.16 d3, [%3] \n\t" // d3 = trow0[x-cn]
"vsub.i16 d9, d2, d3 \n\t" // d9 = d2 - d3
"vld1.16 d4, [%4] \n\t" // d4 = trow1[x+cn]
"vld1.16 d5, [%5] \n\t" // d5 = trow1[x-cn]
"vld1.16 d6, [%6] \n\t" // d6 = trow1[x]
"vmov.i16 d7, #3 \n\t" // d7 = 3
"vmov.i16 d8, #10 \n\t" // d8 = 10
"vadd.i16 d4, d4, d5 \n\t" // d4 = d4 + d5
"vmul.i16 d10, d4, d7 \n\t" // d10 = d4 * d7
"vmla.i16 d10, d6, d8 \n\t" // d10 = d10 + d6 * d8
"vst2.16 {d9,d10}, [%0] \n\t" // drow[x*2] = d9; drow[x*2+1] = d10;
//"vst1.16 d4, [%1] \n\t"
: //output
:"r"(drow+x*2), "r"(drow+x*2+1), "r"(trow0+x+cn), "r"(trow0+x-cn), "r"(trow1+x+cn), "r"(trow1+x-cn), "r"(trow1) //input
:"d2", "d3", "d4", "d5", "d6", "d7", "d8", "d9", "d10" //registers
);
}
修改
这是内在的verison。它与之前几乎相同。它仍然运作缓慢。
const int16x8_t vk3 = { 3, 3, 3, 3, 3, 3, 3, 3 };
const int16x8_t vk10 = { 10, 10, 10, 10, 10, 10, 10, 10 };
for( ; x < colsn; x+=8 )
{
int16x8x2_t loaded;
int16x8_t t0a = vld1q_s16(&trow0[x + cn]);
int16x8_t t0b = vld1q_s16(&trow0[x - cn]);
loaded.val[0] = vsubq_s16(t0a, t0b); // t0 = (trow0[x + cn] - trow0[x - cn])
loaded.val[1] = vld1q_s16(&trow1[x + cn]);
int16x8_t t1b = vld1q_s16(&trow1[x - cn]);
int16x8_t t1c = vld1q_s16(&trow1[x]);
loaded.val[1] = vaddq_s16(loaded.val[1], t1b);
loaded.val[1] = vmulq_s16(loaded.val[1], vk3);
loaded.val[1] = vmlaq_s16(loaded.val[1], t1c, vk10);
}
答案 0 :(得分:3)
由于数据危害,您正在创建大量管道停滞。例如这三条指令:
"vadd.i16 d4, d4, d5 \n\t" // d4 = d4 + d5
"vmul.i16 d10, d4, d7 \n\t" // d10 = d4 * d7
"vmla.i16 d10, d6, d8 \n\t" // d10 = d10 + d6 * d8
它们每个只发出1条指令,但它们之间存在多个循环停顿,因为结果尚未就绪(NEON instruction scheduling)。
尝试展开循环几次并交错指令。如果使用内在函数,编译器可能会为您执行此操作。在指令调度等方面击败编译器并非不可能,但它很难并且通常不值得(这可能不会过早地优化)。
修改
你的内在代码是合理的,我怀疑编译器没有做得很好。看看它产生的汇编代码(objdump -d
),您可能会发现它也会产生很多管道危险。更高版本的编译器可能有所帮助,但如果不是,您可能需要自己修改循环以隐藏结果的延迟(您将需要指令时序)。保持当前代码,因为它是正确的,并且应该由聪明的编译器优化。
你最终会得到类似的东西:
// do step 1 of first iteration
// ...
for (int i = 0; i < n - 1; i++) {
// do step 1 of (i+1)th
// do step 2 of (i)th
// with their instructions interleaved
// ...
}
// do step 2 of (n-1)th
// ...
您还可以将循环拆分为两个以上的步骤,或者将循环展开几次(例如,将i++
更改为i+=2
,将循环体加倍,然后更改i
下半场到i+1
。我希望这个答案有所帮助,如果有什么不清楚,请告诉我!
答案 1 :(得分:1)
那里有一些循环不变的东西需要移动到for循环之外 - 这可能会有所帮助。
您还可以考虑使用全宽度SIMD操作,这样您就可以在每次循环迭代中处理8 ppints而不是4。
最重要的是,您应该使用内在函数而不是原始asm,以便编译器可以处理窥孔优化,寄存器分配,指令调度,循环展开等。
E.g。
// constants - init outside loop
const int16x8_t vk3 = { 3, 3, 3, 3, 3, 3, 3, 3 };
const int16x8_t vk10 = { 10, 10, 10, 10, 10, 10, 10, 10 };
for( ; x < colsn; x += 8)
{
int16x8_t t0a = vld1q_s16(&trow0[x + cn]);
int16x8_t t0b = vld1q_s16(&trow0[x - cn]);
int16x8_t t0 = vsubq_s16(t0a, t0b); // t0 = (trow0[x + cn] - trow0[x - cn])
// ...
}