Question

我正在尝试为打包的SSE2双打写一个无分支位select函数：

#include <iostream>
#include <emmintrin.h>

inline __m128d select(bool expression, const __m128d& x, const __m128d& y)
{
    const int conditional_mask = expression ? -1 : 0;

    const auto mask = _mm_castsi128_pd(_mm_set_epi64x(conditional_mask, conditional_mask));

    return _mm_or_pd(_mm_and_pd(mask, x), _mm_andnot_pd(mask, y));
}

int main()
{
    auto r1 = _mm_setr_pd(1, 2);
    auto r2 = _mm_setr_pd(5, 6);

    auto result = select(true, r1, r2);

    auto packed = reinterpret_cast<double*>(&result);

    std::cout << "result = " << packed[0] << ", " << packed[1] << std::endl;
    std::getchar();

    return EXIT_SUCCESS;
}

对于SSE2和SSE4，是否有更简单的方法在x64上更优化？

Answer 1

您已指定允许SSE4，SSE4.1具有blendvpd，因此您可以与内置混合混合:(未经测试，但已编译）

inline __m128d select(bool expression, const __m128d& x, const __m128d& y)
{
    const int c_mask = expression ? -1 : 0;
    const auto mask = _mm_castsi128_pd(_mm_set_epi64x(c_mask, c_mask));
    return _mm_blendv_pd(y, x, mask);
}

我也不会通过引用将SSE向量作为参数，复制它们是微不足道的，因此无法避免并通过引用引用它们会鼓励编译器通过内存将其弹回（对于非内联调用）。

两个SSE2打包双精度的最优无分支条件选择

1 个答案: