使用sse的快速紧凑寄存器

时间:2013-09-09 22:46:02

标签: c++ sse sse4

我试图弄清楚如何使用sse _mm_shuffle_epi8来压缩128位寄存器。

假设我有一个输入变量

__m128i target

基本上是8个16位,表示为:

a[0], a[1] ... a[7].  // each slot is 16 bits

我的输出被称为:

__m128i output

现在我有一个大小为8的位向量:

char bit_mask // 8 bits, i-th bit each indicate if
              // the corresponding a[i] should be included

好的,如何根据bit_mask和输入目标获得最终结果?

假设我的位向量是:

[0 1 1 0 0 0 0 0]

然后我希望结果是:

output = [a1, a2 , ... ]

使用_mm_shuffle_epi8执行此操作的任何已知方法?

假设我使用查找数组: _mm_shuffle_epi8(a,mask_lookup [bitvector]);

如何创建阵列?

1 个答案:

答案 0 :(得分:4)

简单且非常快,但需要4KB的表空间:

_mm_shuffle_epi8(a, mask_lookup[bitvector]);

您只需将所有256个可能的随机掩码存储在由位向量索引的表中。