Question

我需要乘以2个16位向量，并希望得到32位向量的输出，因为溢出问题类似于下面。

   A = [ 1, 2, 3, 4, 5, 6, 7, 8]
   B = [ 1, 3, 5, 6, 8, 9, 10 ,12 ]

   C1= [ 1*1 + 2*3, 3*5, 4*6]
   c2= [ 5*8, 6* 9, 7*10, 8*12 ]

我能够通过首先将A和B分成32位向量然后使用下面的乘法函数来实现这一点

static inline __m128i muly(const __m128i &a, const __m128i &b)
{
    __m128i tmp1 = _mm_mul_epu32(a, b); /* mul 2,0*/
    __m128i tmp2 = _mm_mul_epu32(_mm_srli_si128(a, 4), _mm_srli_si128(b, 4)); /* mul 3,1 */
    return _mm_unpacklo_epi32(_mm_shuffle_epi32(tmp1, _MM_SHUFFLE(0, 0, 2, 0)), _mm_shuffle_epi32(tmp2, _MM_SHUFFLE(0, 0, 2, 0))); /* shuffle results to [63..0] and pack */
}

但我认为这样效率不高，我们可以使用_mm_mullo_epi16来提高效率。有人可以建议/发布代码来实现这个目标吗？

Answer 1

是的，你可以这样做：

static inline void muly(__m128i &vh, __m128i &vl,           // output - 2x4xint32_t
                        const __m128i v0, const __m128i v1) // input  - 2x8xint16_t
    const __m128i vhi = _mm_mulhi_epi16(v0, v1);            // mul lo
    const __m128i vlo = _mm_mullo_epi16(v0, v1);            // mul hi
    vh = _mm_unpackhi_epi16(vlo, vhi);                      // interleave results
    vl = _mm_unpacklo_epi16(vlo, vhi);
}

<小时/> 请注意，对于16x16乘法，您可能需要考虑固定点乘法。这种方法通常用于DSP和图像处理任务，如过滤。它比完整的16x16-> 32乘法更有效，并且还避免了数据扩展和缩减到16位的需要。

请参阅：__m128i _mm_mulhrs_epi16 (__m128i a, __m128i b)

如何将2个16位向量相乘并将结果存储在sse中的32位向量中？

1 个答案: