Question

我想实现这个目标：

for (int i=0;i<n,i++){
  if (x[i] > 2.0f || x[i] < -2.0f) 
     a[i] += x[i]; 
}

我走了这么远，但不知道下一步该做什么：

__m128 P2f = _mm_set1_ps(2.0f);
__m128 M2f = _mm_set1_ps(-2.0f);
for(int i=0;i<n,i+=4){
__m128 xv = _mm_load_ps(x+i);
__m128 av = _mm_load_ps(a+i);

__m128 c1 = _mm_cmpgt_ps(xv, P2f);
__m128 c2 = _mm_cmplt_ps(xv, M2f);

__m128 or = _mm_or_ps(c1,c2);
    =???==
av = _mm_add_ps(av, xv);
_mm_store_ps(a+i, av);
}

Answer 1

你很亲密：

const __m128 P2f = _mm_set1_ps(2.0f);
const __m128 M2f = _mm_set1_ps(-2.0f);
for (int i = 0; i < n; i += 4)
{
    __m128 xv = _mm_load_ps(x + i);
    __m128 av = _mm_load_ps(a + i);

    __m128 c1v = _mm_cmpgt_ps(xv, P2f);
    __m128 c2v = _mm_cmplt_ps(xv, M2f);

    __m128 cv = _mm_or_ps(c1v, c2v);

    xv = _mm_and_ps(xv, cv);

    av = _mm_add_ps(av, xv);

    _mm_store_ps(a + i, av);
}

诀窍是OR两个比较结果，然后使用此组合结果作为掩码，将使用按位AND操作未通过测试的X值清零。然后添加蒙板X向量，根据蒙版将0或原始X值添加到A的每个元素。

对于下面评论中提到的备用版本，您可以这样做：

const __m128 P2f = _mm_set1_ps(2.0f);
const __m128 M2f = _mm_set1_ps(-2.0f);
for (int i = 0; i < n; i += 4)
{
    __m128 xv = _mm_load_ps(x + i);
    __m128 av = _mm_load_ps(a + i);

    __m128 c1v = _mm_cmpgt_ps(xv, P2f);
    __m128 c2v = _mm_cmplt_ps(xv, M2f);

    __m128 cv = _mm_or_ps(c1v, c2v);

    xv = _mm_and_ps(P2f, cv); // <<< change this line to get a[i] += 2.0f
                              //     instead of a[i] += x[i]

    av = _mm_add_ps(av, xv);

    _mm_store_ps(a + i, av);
}

对于您在下面的评论（a[i] *= 2.0）中提到的第三个版本，它稍微复杂一些，但您可以将表达式视为a[i] += a[i]：

const __m128 P2f = _mm_set1_ps(2.0f);
const __m128 M2f = _mm_set1_ps(-2.0f);
for (int i = 0; i < n; i += 4)
{
    __m128 xv = _mm_load_ps(x + i);
    __m128 av = _mm_load_ps(a + i);

    __m128 c1v = _mm_cmpgt_ps(xv, P2f);
    __m128 c2v = _mm_cmplt_ps(xv, M2f);

    __m128 cv = _mm_or_ps(c1v, c2v);

    xv = _mm_and_ps(av, cv)); // <<< change this line to get a[i] *= 2.0f (a[i] += a[i])
                              //     instead of a[i] += x[i]

    av = _mm_add_ps(av, xv);

    _mm_store_ps(a + i, av);
}

Answer 2

我只会通过利用关于零的对称性来增加保罗的优秀答案，你只需做一次比较：

const __m128 absMask = (__m128)_mm_set1_epi32(0x7fffffff);
const __m128 two = _mm_set1_ps(2.0f);

for (int i = 0; i < n; i += 4) {
    __m128 xv = _mm_load_ps(x + i);
    __m128 av = _mm_load_ps(a + i);
    __m128 absxv = _mm_and_ps(xv, absMask); // |x|
    __m128 mask = _mm_cmpgt_ps(absxv, two); // |x| > 2 ?
    xv = _mm_and_ps(xv, cv);                // |x| > 2 ? x : 0
    av = _mm_add_ps(av, xv);                // |x| > 2 ? a + x : a + 0
    _mm_store_ps(a + i, av);
}

如果语句与C中的SSE进行比较

2 个答案: