Question

我想用Neon Intrinsics优化这些代码。基本上是给定的输入

0 1 2 3 4 5 6 7 8

将产生输出，

2 1 0 5 4 3 8 7 6

void func(uint8_t* src, uint8_t* dst, int size){

   for (int i = 0; i < size; i++){
     dst[0] = src[2];
     dst[1] = src[1];
     dst[2] = src[0]
     dst = dst+3;
     src = src+3;
   }           
}

我能想到的唯一方法就是使用

uint8x8x3_t src = vld3_u8(src);

获取3个向量，然后从src [2]，src [1]，src [0]访问每个元素并写入内存。

有人可以帮忙吗？

谢谢。

Answer 1

在基础指令集中这很容易，因为你要交换3元素结构中的两个元素，这实际上已经说明了相关的指令：

vld3.u8 {d0-d2}, [r0]
vswp d0, d2
vst3.u8 {d0-d2}, [r0]

在NEON Programmers Guide中甚至有这个确切的例子，因为它是RGB-BGR转换，而且这正是NEON设计的处理类型。

对于内在函数来说，它有点棘手，因为vswp没有内在的东西;你只需要在C中表达它并信任编译器做正确的事情：

uint8x8x3_t data = vld3_u8(src);
uint8x8_t tmp = data.val[0];
data.val[0] = data.val[2];
data.val[2] = tmp;
vst3_u8(dest, data);

也就是说，随着编译器交付各种版本的GCC，我无法说服他们中的任何人实际发出vswp代码生成，范围从次优到愚蠢。 Clang做得好多了，但仍然没有vswp;其他编译器可能更聪明。

Intrinsics霓虹灯交换向量中的元素

1 个答案: