ARM汇编程序NEON - 提高性能

时间:2012-02-23 14:08:32

标签: android performance assembly arm neon

我已将部分算法从C转换为ARM Assembler(使用NEON指令), 但现在它比原始C代码慢2倍。 如何提高绩效?

Target是ARM Cortex-A9。

该算法从数组中读取64位值。从该值中提取一个字节,然后将其用作另一个表的查找值。 这部分大约完成了10次,每个结果表值与其他值进行异或,最终结果写入另一个数组。

这样的事情:

result[i] = T0[ GetByte0( a[i1] ) ] ^ T1[ GetByte1( a[i2] ) ] ^ ... ^ T10[ (...) ];

在我的方法我加载“一”在NEON寄存器,然后在移动的臂寄存器中的右字节整个阵列,计算偏移量,然后加载从表中的值:

vldm.64 r0, {d0-d7}         //Load 8x64Bit from the input array

vmov.u8 r12, d0[0]          //Mov the first Byte from d0 into r12
add r12, r2, r12, asl #3    // r12 = base_adress + r12 << 3
vldr.64 d8, [r12]           // d8 = mem[r12]
.
.
.
veor d8, d8, d9             // d8 = d8 ^ d9
veor d8, d8, d10            // d8 = d8 ^d10      ...ect.

其中r2保存查找表的基地址。

adress = Table_adress + (8* value_fromByte);

此步骤(开头加载除外)完成100次。为什么这么慢?

“vld”“vldr”“vldm”之间有什么区别 - 哪一个是最快的。 如何仅在霓虹灯寄存器中执行偏移计算? 谢谢。

4 个答案:

答案 0 :(得分:3)

Neon不太能处理大于VTBL指令限制的Lookups(如果我没记错的话,是32字节)。
如何创建查找表以开始?如果它只是计算,只需让Neon做数学而不是求助于查找。 这样会快得多。

答案 1 :(得分:2)

不要使用

vmov.u8 r12, d0[0]

将数据从NEON寄存器移动到ARM寄存器是您可以做的最糟糕的事情。

也许你应该看看VTBL指令! 你的字节范围是0..255?

答案 2 :(得分:1)

可能你可以试试

ldrb     r12, [r0], #1
add      r3, r2, r12, asl #3
vld1.64  {d0}, [r3]

ldrb     r12, [r0], #1
add      r3, r2, r12, asl #3
vld1.64  {d1}, [r3]
veor     d0, d0, d1         // d8 = d8 ^ d1

ldrb     r12, [r0], #1
add      r3, r2, r12, asl #3
vld1.64  {d1}, [r3]
veor     d0, d0, d1         // d8 = d8 ^ d1

...

这不是最好的解决方案。之后,您可以通过重新订购指令来提高性能。

答案 3 :(得分:0)

尝试使用NEON“内在函数”。基本上它们是编译为NEON指令的C函数。编译器仍然可以完成所有指令调度,并且您可以免费获得其他无聊的东西(移动数据)。

它并不总是完美无缺,但它可​​能比尝试手动编码更好。

寻找arm_neon.h