Question

我正在学习如何使用SIMD内在函数和自动向量化。幸运的是，我有一个正在从事的有用项目，对于SIMD来说，它似乎极为适合，但对于像我这样的新手来说仍然很棘手。

我正在为图像写一个滤镜，该滤镜计算2x2像素的平均值。我正在通过将两个像素的总和累加为一个像素来进行计算。

template <typename T, typename U>
inline void accumulate_2x2_x_pass(
  T* channel, U* accum,
  const size_t sx, const size_t sy, 
  const size_t osx, const size_t osy,
  const size_t yoff, const size_t oyoff
) {

  const bool odd_x = (sx & 0x01);

  size_t i_idx, o_idx;

  // Should be vectorizable somehow...
  for (size_t x = 0, ox = 0; x < sx - (size_t)odd_x; x += 2, ox++) {
    i_idx = x + yoff;
    o_idx = ox + oyoff;
    accum[o_idx] += channel[i_idx];
    accum[o_idx] += channel[i_idx + 1];
  }

  if (odd_x) {
    // << 1 bc we need to multiply by two on the edge 
    // to avoid darkening during render
    accum[(osx - 1) + oyoff] += (U)(channel[(sx - 1) + yoff]) * 2;
  }
}

但是，godbolt显示我的循环无法自动矢量化。（https://godbolt.org/z/qZxvof）我将如何构造SIMD内部函数来解决此问题？我可以控制累加的对齐方式，但不能控制通道。

（我知道这里有一个平均内在函数，但是这里不合适，因为我需要生成多个mip级别，并且该命令会导致下一级别的精度下降。）

谢谢大家。：）

Answer 1

缩小类型为T = uint8_t或uint16_t 的情况下，最好用SSSE3 pmaddubsw或SSE2 {{1 }}乘以pmaddwd。（Intrinsics guide）这些指令是单码执行的，并且精确地进行水平加宽比混洗更有效。

如果可以的话，又不会失去精度，请先在行之间进行垂直加法，然后再扩大水平加法。（例如1中的10、12或14位像素分量不能溢出）。在大多数CPU上，负载和垂直添加的时钟速率至少为2，而[u]int16_t的时钟速率仅为1，而Skylake及更高版本的时钟速率仅为2。 这意味着您只需要添加1x + 1x pmadd与2x pmadd + 1x即可，因此即使在Skylake上也是一个巨大的胜利。（对于第二种方式，两个负载都可以折叠成pmadd的内存操作数，对于pmadd之前的添加，首先需要纯负载，然后将第二个负载折叠到add中，因此除非您使用索引寻址模式并且它们取消分层，否则您可能不会保存前端uops。）

理想情况下，您不需要pmadd*到累加器数组中，而是可以并行读取2行并且累加器是只写的，因此您的循环只有2个输入流和1个输出流。

+=

这些端口直接连接到256位AVX2，因为输入和输出宽度相同。无需重新整理即可固定车道内包装。

是的，他们都是// SSSE3 __m128i hadd_widen8_to_16(__m128i a) { // uint8_t, int8_t (doesn't matter when multiplier is +1) return _mm_maddubs_epi16(a, _mm_set_epi8(1)); } // SSE2 __m128i hadd_widen16_to_32(__m128i a) { // int16_t, int16_t return _mm_madd_epi16(a, _mm_set_epi16(1)); }。英特尔可能与内在名称完全不一致。 asm助记符更一致，更容易记住什么。（{_epi16 =无符号字节到带符号的字，除了输入之一是有符号字节。ubsw打包乘以将双字添加到dword，与pmaddwd相同的命名方案，等等。）

带有punpcklwd或uint16_t 的T = U案例是SSSE3 uint32_t或_mm_hadd_epi16的用例。它的成本与2个混洗+垂直添加的成本相同，但是无论如何您都需要将2个输入压缩到1个。

如果您想解决Haswell及更高版本上的shuffle-port瓶颈问题，可以考虑在输入上使用qword shift，然后用_mm_hadd_epi32（shufps +一些强制转换）将结果混排在一起。这可能是在Skylake上的一个胜利（每个时钟移位吞吐量有2个），即使它花费了5而不是3的总uops。它可以在每个输出向量上最好以5/3周期运行，而不是每个向量2个周期。没有前端瓶颈

_mm_shuffle_ps

对于AVX2版本，您需要通过交叉改组来修正// UNTESTED //Only any good with AVX, otherwise the extra movdqa instructions kill this //Only worth considering for Skylake, not Haswell (1/c shifts) or Sandybridge (2/c shuffle) __m128i hadd32_emulated(__m128i a, __m128i b) { __m128i a_shift = _mm_srli_epi64(a, 32); __m128i b_shift = _mm_srli_epi64(b, 32); a = _mm_add_epi32(a, a_shift); b = _mm_add_epi32(b, b_shift); __m128 combined = _mm_shuffle_ps(_mm_castsi128_ps(a), _mm_castsi128_ps(b), _MM_SHUFFLE(2,0,2,0)); return _mm_castps_si128(combined); }结果。因此，在轮班中效仿哈德可能是一个更大的胜利。

vphadd

在Haswell和Skylake上，// 3x shuffle 1x add uops __m256i hadd32_avx2(__m256i a, __m256i b) { __m256i hadd = _mm256_hadd_epi32(a, b); // 2x in-lane hadd return _mm256_permutex_epi64( hadd, _MM_SHUFFLE(3,1,2,0) ); } // UNTESTED // 2x shift, 2x add, 1x blend-immediate (any ALU port), 1x shuffle __m256i hadd32_emulated_avx2(__m256i a, __m256i b) { __m256i a_shift = _mm256_srli_epi64(a, 32); // useful result in the low half of each qword __m256i b_shift = _mm256_slli_epi64(b, 32); // ... high half of each qword a = _mm256_add_epi32(a, a_shift); b = _mm256_add_epi32(b, b_shift); __m256i blended = _mm256_blend_epi32(a,b, 0b10101010); // alternating low/high results return _mm256_permutexvar_epi32(_mm256_set_epi32(7,5,3,1, 6,4,2,0), blended); }可以每2个时钟运行1个（所有矢量ALU端口都饱和）。合计为hadd32_emulated_avx2的额外add_epi32会将其减慢到每个256位结果矢量最多7/3个周期，并且您需要展开（或使用展开的编译器）以不只是前端的瓶颈。

accum[]可以每3个时钟运行1个（在端口5上出现瓶颈，以进行随机播放）。加载+存储+额外的hadd32_avx2来实现循环的操作可以轻松地实现。

（https://agner.org/optimize/，请参阅https://stackoverflow.com/tags/x86/info）

SIMD：累积相邻对

1 个答案: