Question

我感兴趣的是找到在Cortex-A9内核（允许VFP指令）上比较存储在NEON寄存器（比如Q0和Q3）中的值的最快方式（最低周期数）。

到目前为止，我有以下内容：

（1）使用VFP浮点比较：

vcmp.f64        d0, d6
vmrs            APSR_nzcv, fpscr
vcmpeq.f64      d1, d7
vmrseq          APSR_nzcv, fpscr

如果64位“浮动”等同于NaN，则此版本将无效。

（2）使用NEON缩小和VFP比较（这次只有一次并且以NaN安全的方式）：

vceq.i32        q15, q0, q3
vmovn.i32       d31, q15
vshl.s16        d31, d31, #8
vcmp.f64        d31, d29
vmrs            APSR_nzcv, fpscr

D29寄存器先前预装了正确的16位模式：

vmov.i16        d29, #65280     ; 0xff00

我的问题是：有没有比这更好的？我是否在监督一些明显的方法呢？

Answer 1

我相信你可以通过一条指令减少它。通过使用左移和插入（VLSI），您可以将Q15的4个32位值组合成D31中的4个16位值。然后，您可以与0进行比较并获得浮点标记。

vceq.i32  q15, q0, q3
vlsi.32   d31, d30, #16
vcmp.f64  d31, #0
vmrs      APSR_nzcv, fpscr