如何使用SSE执行uint32 / float转换?

时间:2015-12-03 12:33:32

标签: c x86 sse simd

在SSE中有一个函数_mm_cvtepi32_ps(__m128i input),它接受​​32位宽的有符号整数(int32_t)的输入向量,并将它们转换为float s。

现在,我想将输入整数解释为未签名。但是没有函数_mm_cvtepu32_ps,我找不到一个函数的实现。你知道我在哪里可以找到这样的功能,或者至少对实现有所暗示吗? 为了说明结果的差异:

unsigned int a = 2480160505; // 10010011 11010100 00111110 11111001   
float a1 = a; // 01001111 00010011 11010100 00111111;  
float a2 = (signed int)a; // 11001110 11011000 01010111 10000010

3 个答案:

答案 0 :(得分:5)

此功能存在于AVX-512中,但如果您不能等到那时我唯一可以建议将unsigned int输入值转换为较小值对,转换它们,然后添加它们再一次,例如

inline __m128 _mm_cvtepu32_ps(const __m128i v)
{
    __m128i v2 = _mm_srli_epi32(v, 1);     // v2 = v / 2
    __m128i v1 = _mm_sub_epi32(v, v2);     // v1 = v - (v / 2)
    __m128 v2f = _mm_cvtepi32_ps(v2);
    __m128 v1f = _mm_cvtepi32_ps(v1);
    return _mm_add_ps(v2f, v1f); 
}

<强>更新

正如@wim中的his answer所述,上述解决方案因输入值UINT_MAX而失败。这是一个更强大但效率稍低的解决方案,它应该适用于完整的uint32_t输入范围:

inline __m128 _mm_cvtepu32_ps(const __m128i v)
{
    __m128i v2 = _mm_srli_epi32(v, 1);                 // v2 = v / 2
    __m128i v1 = _mm_and_si128(v, _mm_set1_epi32(1));  // v1 = v & 1
    __m128 v2f = _mm_cvtepi32_ps(v2);
    __m128 v1f = _mm_cvtepi32_ps(v1);
    return _mm_add_ps(_mm_add_ps(v2f, v2f), v1f);      // return 2 * v2 + v1
}

答案 1 :(得分:5)

使用Paul R的解决方案和我以前的解决方案 舍入浮点与原始整数之间的差值小于或等于 0.75 ULP(最后一个单位)。在这些方法中 在两个地方可能会出现舍入:在_mm_cvtepi32_ps和 在_mm_add_ps中。这导致某些输入的结果不尽可能准确。

例如,用Paul R的方法0x2000003 = 33554435转换为33554432.0,但是33554436.0 也存在浮动,这在这里会更好。 我以前的解决方案也存在类似的不准确之处。 编译器生成的代码see here可能会出现这种不准确的结果。

遵循gcc (see Peter Cordes' answer to that other SO question)的方法,可获得0.5 ULP内的准确转换:

inline __m128 _mm_cvtepu32_ps(const __m128i v)
{
    __m128i msk_lo    = _mm_set1_epi32(0xFFFF);
    __m128  cnst65536f= _mm_set1_ps(65536.0f);

    __m128i v_lo      = _mm_and_si128(v,msk_lo);          /* extract the 16 lowest significant bits of v                                   */
    __m128i v_hi      = _mm_srli_epi32(v,16);             /* 16 most significant bits of v                                                 */
    __m128  v_lo_flt  = _mm_cvtepi32_ps(v_lo);            /* No rounding                                                                   */
    __m128  v_hi_flt  = _mm_cvtepi32_ps(v_hi);            /* No rounding                                                                   */
            v_hi_flt  = _mm_mul_ps(cnst65536f,v_hi_flt);  /* No rounding                                                                   */
    return              _mm_add_ps(v_hi_flt,v_lo_flt);    /* Rounding may occur here, mul and add may fuse to fma for haswell and newer    */
}                                                         /* _mm_add_ps is guaranteed to give results with an error of at most 0.5 ULP     */

注意,只要_mm_cvt_ps可以转换,其他高位/低位分区是可能的 两件都漂浮而没有圆角。 例如,具有20个高位和12个低位的分区将同样有效。

答案 2 :(得分:4)

我认为Paul的答案很好,但是对于v = 4294967295U(= 2 ^ 32-1)它没有成功。在那种情况下,v2 = 2 ^ 31-1并且v1 = 2 ^ 31。内部_mm_cvtepi32_ps将2 ^ 31转换为-2.14748365E9。 v2 = 2 ^ 31-1转换为2.14748365E9,因此_mm_add_ps返回0(由于舍入v1f和v2f彼此完全相反)。

下面解决方案的想法是将v的最高位复制到v_high。 v的其他位被复制到v_low。 v_high转换为0或2.14748365E9。

inline __m128 _mm_cvtepu32_v3_ps(const __m128i v)
{
__m128i msk0=_mm_set1_epi32(0x7FFFFFFF);
__m128i zero=_mm_xor_si128(msk0,msk0);
__m128i cnst2_31=_mm_set1_epi32(0x4F000000); /* IEEE representation of float 2^31 */

__m128i v_high=_mm_andnot_si128(msk0,v);
__m128i v_low=_mm_and_si128(msk0,v);
__m128  v_lowf=_mm_cvtepi32_ps(v_low);
__m128i msk1=_mm_cmpeq_epi32(v_high,zero);
__m128  v_highf=_mm_castsi128_ps(_mm_andnot_si128(msk1,cnst2_31));  
__m128  v_sum=_mm_add_ps(v_lowf,v_highf);
return v_sum;

}


更新

可以减少指令数量:

inline __m128 _mm_cvtepu32_v4_ps(const __m128i v)
{
__m128i msk0=_mm_set1_epi32(0x7FFFFFFF);
__m128i cnst2_31=_mm_set1_epi32(0x4F000000);

__m128i msk1=_mm_srai_epi32(v,31);
__m128i v_low=_mm_and_si128(msk0,v);
__m128  v_lowf=_mm_cvtepi32_ps(v_low);
__m128  v_highf=_mm_castsi128_ps(_mm_and_si128(msk1,cnst2_31));  
__m128  v_sum=_mm_add_ps(v_lowf,v_highf);
return v_sum;
}

内部_mm_srai_epi32将v的最高位向右移位,同时移位符号位,这在这里非常有用。