Question

我发现我的程序大部分时间花在与此类似的循环中：

uint8_t (&c) [17] = ...
for (int x = 0; x < 16; x++) {
    if (c[x + 1] < c[x] - 1) {
        c[x + 1] = c[x] - 1;
    }
}

它将字段值计算为当前值的最大值，并将前一个字段的值减去1。

有什么方法可以加快速度吗？

c是几个SSE操作的结果，因此它可能已经是xmm。但是，任何其他类型的改进也是受欢迎的。

Answer 1

可以通过注意结果如何最多16个单独的内核（每个内容都为0 0 0 0 N N-1 N-2 N-3 N-3来打破依赖关系。

__m128i d = _mm_loadu_si128((__m128i*)&c);  // get 16 bytes
__m128i ramp = _mm_set_epi8(15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0);
static __m128i bcast[16]; // shuffles item at i to i+1, i+2, ... 15
// e.g. bcast[3] = _mm_set_epi8(3,3,3,3,3,3,3,3,3,3,3,3,3,0xff,0xff,0xff);

for (i = 0; i < 16; i++)
    __m128i tmp = _mm_shuffle_epi8(d, bcast[i]);
    tmp = _mm_subs_epu8(tmp, ramp);  // saturated subtraction
    ramp = _mm_srli_si128(ramp, 1);        // Shift the ramp
    d = _mm_max_epu8(d, tmp);
}

d = max(d, x[i])产生的依赖关系实际上与顺序无关（假设ramp_i不必逐步评估），依赖关系链可以折叠为二叉树。

但是我们可以比16次迭代做得更好 - 分而治之的技术会将任务分成上半部分和上半部分，每次需要8次迭代（并且可以并行执行）。然后需要一个合并的最后阶段，其中一个必须将上部结果d [8..15]与d [0..7]的递减尾部合并。

优化uint8

1 个答案: