浮动矢量的SSE减少

时间:2013-07-20 10:16:50

标签: c++ sum sse simd reduction

如何使用sse intrinsics获取浮点向量的和元素(减少)?

简单的串行代码:

void(float *input, float &result, unsigned int NumElems)
{
     result = 0;
     for(auto i=0; i<NumElems; ++i)
         result += input[i];
}

1 个答案:

答案 0 :(得分:15)

通常,您在循环中生成4个部分和,然后在循环之后在4个元素之间水平求和,例如

#include <cassert>
#include <cstdint>
#include <emmintrin.h>

float vsum(const float *a, int n)
{
    float sum;
    __m128 vsum = _mm_set1_ps(0.0f);
    assert((n & 3) == 0);
    assert(((uintptr_t)a & 15) == 0);
    for (int i = 0; i < n; i += 4)
    {
        __m128 v = _mm_load_ps(&a[i]);
        vsum = _mm_add_ps(vsum, v);
    }
    vsum = _mm_hadd_ps(vsum, vsum);
    vsum = _mm_hadd_ps(vsum, vsum);
    _mm_store_ss(&sum, vsum);
    return sum;
}

注意:对于上面的示例,a必须是16字节对齐,n必须是4的倍数。如果无法保证a的对齐,则使用{{1而不是_mm_loadu_ps。如果_mm_load_ps不能保证是4的倍数,那么在函数末尾添加一个标量循环来累积任何剩余的元素。