使用SSE2模拟packusdw功能

时间:2012-06-13 23:14:00

标签: x86 simd intrinsics sse2 sse4

我正在实施快速x888 - >根据{{​​3}}描述的算法,pixman中的565像素转换函数。他们的代码转换x888 - > 555虽然我想转换为565.不幸的是,转换为565意味着设置了高位,这意味着我不能使用有符号饱和包指令。在SSE4.1之前,未添加unsigned pack指令packusdw。我想用SSE2实现它的功能,或者找到另一种方法。

此函数采用两个XMM寄存器,每个寄存器包含4个32位像素,并输出一个包含8个转换RGB565像素的XMM寄存器。

static force_inline __m128i
pack_565_2packedx128_128 (__m128i lo, __m128i hi)
{
    __m128i rb0 = _mm_and_si128 (lo, mask_565_rb);
    __m128i rb1 = _mm_and_si128 (hi, mask_565_rb);

    __m128i t0 = _mm_madd_epi16 (rb0, mask_565_pack_multiplier);
    __m128i t1 = _mm_madd_epi16 (rb1, mask_565_pack_multiplier);

    __m128i g0 = _mm_and_si128 (lo, mask_green);
    __m128i g1 = _mm_and_si128 (hi, mask_green);

    t0 = _mm_or_si128 (t0, g0);
    t1 = _mm_or_si128 (t1, g1);

    t0 = _mm_srli_epi32 (t0, 5);
    t1 = _mm_srli_epi32 (t1, 5);

    /* XXX: maybe there's a way to do this relatively efficiently with SSE2? */
    return _mm_packus_epi32 (t0, t1);
}

我想到的想法:

  • 减去0x8000,_ mm_packs_epi32,向每个565像素重新添加0x8000。我试过这个,但我无法做到这一点。

    t0 = _mm_sub_epi16 (t0, mask_8000);
    t1 = _mm_sub_epi16 (t1, mask_8000);
    t0 = _mm_packs_epi32 (t0, t1);
    return _mm_add_epi16 (t0, mask_8000);
    
  • 随机播放数据而不是打包它。适用于MMX,但由于SSE 16位shuffle仅适用于高位或低位64位,因此会变得混乱。

  • 保存高位,将它们设置为零,执行包装,然后恢复它们。看起来很乱。

是否还有其他(希望更有效)的方法可以做到这一点?

1 个答案:

答案 0 :(得分:6)

您可以先签名扩展值,然后使用_mm_packs_epi32

t0 = _mm_slli_epi32 (t0, 16);
t0 = _mm_srai_epi32 (t0, 16);
t1 = _mm_slli_epi32 (t1, 16);
t1 = _mm_srai_epi32 (t1, 16);
t0 = _mm_packs_epi32 (t0, t1);

您实际上可以将其与之前的班次相结合以保存两条指令:

t0 = _mm_slli_epi32 (t0, 16 - 5);
t0 = _mm_srai_epi32 (t0, 16);
t1 = _mm_slli_epi32 (t1, 16 - 5);
t1 = _mm_srai_epi32 (t1, 16);
t0 = _mm_packs_epi32 (t0, t1);