Question

我是AVX内在函数（以及一般的AVX）的新手，我试图加速一些使用由32个无符号字符组成的256位查找表的代码。目前，代码（带有虚拟数据）是这样编写的：

unsigned char lookup_table[32] = { 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 };
unsigned char result[8];
unsigned char indices[8] = { 0, 4, 8, 12, 16, 20, 24, 28};
for(int i = 0; i < 8; i++)
{
    result[i] = lookup_table[indices[i]];
}

哪个工作正常，导致以下内容被放入＆＃34;结果＆＃34;：

0, 4, 8, 12, 16, 20, 24, 28

为了加快速度，我已使用以下AVX说明替换了上述代码：

unsigned char lookup_table[32] = { 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 };
unsigned char result[8];
unsigned char indices[8] = { 0, 4, 8, 12, 16, 20, 24, 28};
__m256i avxTable = _mm256_loadu_si256((__m256i*)&table);
__m256i avxIndices = _mm256_loadu_si256((__m256i*)&indices);

__m256i avxResult= _mm256_shuffle_epi8(avxTable , avxIndices);

这导致以下输出：

0, 4, 8, 12, 0, 4, 8, 12

我收集到的是_mm256_shuffle_epi8 instrinsic与0X0F的索引（根据https://software.intel.com/en-us/node/524017处的伪代码），有效地使任何索引高于16＆＃34;环绕＆＃34;再次，因此重复（0,4,8,12）。

我使用了错误的AVX电话吗？我完全偏离了我认为这应该有用的方式吗？

Answer 1

这是使用SSE而不是AVX的解决方案。请注意，它并行执行16次查找（使用128位SIMD和8位元素，不能执行此操作）：

#include <stdio.h>
#include <smmintrin.h> // SSE 4.1

int main()
{
    unsigned char lookup_table[32] = { 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15,
                                       16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31 };

    unsigned char result[16];
    unsigned char indices[16] = { 0, 4, 8, 12, 16, 20, 24, 28, 2, 6, 10, 14, 18, 22, 26, 30 };

    __m128i vIndices, vSelect, vTable0, vTable1, vResult0, vResult1, vResult;

    vIndices = _mm_loadu_si128((__m128i *)&indices);
    vSelect = _mm_cmpgt_epi8(vIndices,  _mm_set1_epi8(15));
    vTable0 = _mm_loadu_si128((__m128i *)&lookup_table[0]);
    vTable1 = _mm_loadu_si128((__m128i *)&lookup_table[16]);
    vResult0 = _mm_shuffle_epi8(vTable0, vIndices);
    vResult1 = _mm_shuffle_epi8(vTable1, vIndices);
    vResult = _mm_blendv_epi8(vResult0, vResult1, vSelect);
    _mm_storeu_si128((__m128i *)result, vResult);

    printf("%vd\n", vResult);
    return 0;
}

编译和测试：

$ gcc -Wall test_lut.c -msse4 && ./a.out 
0 4 8 12 16 20 24 28 2 6 10 14 18 22 26 30

AVX2矢量化256位查找表（32个无符号字符）

1 个答案: