Question

我知道如何将一个__m256相加以获得单个求和值。但是，我有8个矢量输入

1: a[0], a[1], a[2], a[3], a[4], a[5], a[6], a[7],
.....,
.....,
8: h[0], h[1], h[2], h[3], h[4], a[5], a[6], a[7]

输出

a[0]+a[1]+a[2]+a[3]+a[4]+a[5]+a[6]+a[7], 
 ...., 
h[0]+h[1]+h[2]+h[3]+h[4]+h[5]+h[6]+h[7]

我的方法。好奇，如果有更好的方法。

            __m256 sumab = _mm256_hadd_ps(accumulator1, accumulator2);
            __m256 sumcd = _mm256_hadd_ps(accumulator3, accumulator4);

            __m256 sumef = _mm256_hadd_ps(accumulator5, accumulator6);
            __m256 sumgh = _mm256_hadd_ps(accumulator7, accumulator8);

            __m256 sumabcd = _mm256_hadd_ps(sumab, sumcd);
            __m256 sumefgh = _mm256_hadd_ps(sumef, sumgh);

            __m128 sumabcd1 = _mm256_extractf128_ps(sumabcd, 0);
            __m128 sumabcd2 = _mm256_extractf128_ps(sumabcd, 1);
            __m128 sumefgh1 = _mm256_extractf128_ps(sumefgh, 0);
            __m128 sumefgh2 = _mm256_extractf128_ps(sumefgh, 1);

            sumabcd1 = _mm_add_ps(sumabcd1, sumabcd2);
            sumefgh1 = _mm_add_ps(sumefgh1, sumefgh2);

 __m256 result =_mm256_insertf128_ps(_mm256_castps128_ps256(sumabcd1), sumefgh1, 1)

Answer 1

您可以使用2x _mm256_permute2f128_ps排列垂直vaddps的低和高通道。这不是2x extractf128 / insertf128。这也会将两条128b vaddps xmm指令转换为单个256b vaddps ymm。

vperm2f128与英特尔CPU上的单个vextractf128或vinsertf128一样快。然而，它在AMD上的速度很慢（在Bulldozer家族中有8个等待时间为4c延迟）。尽管如此，即使你关心AMD的性能，你也需要避免它。（其中一个转换实际上可以是vinsertf128）。

__m256 hsum8(__m256 a, __m256 b, __m256 c, __m256 d,
             __m256 e, __m256 f, __m256 g, __m256 h)
{
    // a = [ A7 A6 A5 A4 | A3 A2 A1 A0 ]
    __m256 sumab = _mm256_hadd_ps(a, b);
    __m256 sumcd = _mm256_hadd_ps(c, d);

    __m256 sumef = _mm256_hadd_ps(e, f);
    __m256 sumgh = _mm256_hadd_ps(g, h);

    __m256 sumabcd = _mm256_hadd_ps(sumab, sumcd);  // [ D7:4 ... A7:4 | D3:0 ... A3:0 ]
    __m256 sumefgh = _mm256_hadd_ps(sumef, sumgh);  // [ H7:4 ... E7:4 | H3:0 ... E3:0 ]

    __m256 sum_hi = _mm256_permute2f128_ps(sumabcd, sumefgh, 0x31);  // [ H7:4 ... E7:4 | D7:4 ... A7:4 ]
    __m256 sum_lo = _mm256_permute2f128_ps(sumabcd, sumefgh, 0x20);  // [ H3:0 ... E3:0 | D3:0 ... A3:0 ]

    __m256 result = _mm256_add_ps(sum_hi, sum_lo);
    return result;
}

这compiles as you'd expect。第二个permute2f128实际上编译为vinsertf128，因为它只使用每个输入的低通道，方式与vinsertf128相同。 gcc 4.7及更高版本执行此优化，但只有更新的clang版本（v3.7）。如果您关心旧铿锵，请在源级别执行此操作。

源代码行的节省大于指令中的节省，因为_mm256_extractf128_ps(sumabcd, 0);编译为零指令：它只是一个演员。没有编译器应该使用除vextractf128之外的imm8发出1。（vmovdqa xmm/m128, xmm总是更适合获得低频道）。英特尔做得很好，因为普通的VEX前缀没有足够的空间对较长的矢量进行编码，因此在未来验证中会浪费一个指令字节，因为普通的VEX前缀没有空间对较长的矢量进行编码。

两条vaddps xmm指令可以并行运行，因此使用单个vaddps ymm主要只是吞吐量（和代码大小）增益，而不是延迟。

尽管如此，我们还是完全消除了最终的vinsertf128，从而缩短了3个周期。

vhaddps是3 uops，5c延迟，每2c吞吐量一个。（Skylake的6c延迟）。这三个uop中的两个在shuffle端口上运行。我猜它基本上做了2x shufps来为addps生成操作数。

如果我们可以使用单个haddps / shufps或其他内容模拟addps（或至少获得我们可以使用的水平操作），那么我们就会提前出来。不幸的是，我不知道如何。单个shuffle只能使用来自两个向量的数据生成一个结果，但我们需要两个输入到垂直addps以获得来自两个向量的数据。

我不认为以另一种方式做横向总和看起来很有希望。 Normally, hadd is not a good choice，因为常见的水平和用例只关心其输出的一个元素。在这种情况并非如此：每个hadd结果的每个元素都被实际使用。

获得m256的8个源m256向量的水平和的最有效方法

1 个答案:

获得__m256的8个源__m256向量的水平和的最有效方法

1 个答案:

获得m256的8个源m256向量的水平和的最有效方法