我知道如何将一个__m256
相加以获得单个求和值。但是,我有8个矢量
输入
1: a[0], a[1], a[2], a[3], a[4], a[5], a[6], a[7],
.....,
.....,
8: h[0], h[1], h[2], h[3], h[4], a[5], a[6], a[7]
输出
a[0]+a[1]+a[2]+a[3]+a[4]+a[5]+a[6]+a[7],
....,
h[0]+h[1]+h[2]+h[3]+h[4]+h[5]+h[6]+h[7]
我的方法。好奇,如果有更好的方法。
__m256 sumab = _mm256_hadd_ps(accumulator1, accumulator2);
__m256 sumcd = _mm256_hadd_ps(accumulator3, accumulator4);
__m256 sumef = _mm256_hadd_ps(accumulator5, accumulator6);
__m256 sumgh = _mm256_hadd_ps(accumulator7, accumulator8);
__m256 sumabcd = _mm256_hadd_ps(sumab, sumcd);
__m256 sumefgh = _mm256_hadd_ps(sumef, sumgh);
__m128 sumabcd1 = _mm256_extractf128_ps(sumabcd, 0);
__m128 sumabcd2 = _mm256_extractf128_ps(sumabcd, 1);
__m128 sumefgh1 = _mm256_extractf128_ps(sumefgh, 0);
__m128 sumefgh2 = _mm256_extractf128_ps(sumefgh, 1);
sumabcd1 = _mm_add_ps(sumabcd1, sumabcd2);
sumefgh1 = _mm_add_ps(sumefgh1, sumefgh2);
__m256 result =_mm256_insertf128_ps(_mm256_castps128_ps256(sumabcd1), sumefgh1, 1)
答案 0 :(得分:3)
您可以使用2x _mm256_permute2f128_ps
排列垂直vaddps
的低和高通道。这不是2x extractf128
/ insertf128
。这也会将两条128b vaddps xmm
指令转换为单个256b vaddps ymm
。
vperm2f128
与英特尔CPU上的单个vextractf128
或vinsertf128
一样快。然而,它在AMD上的速度很慢(在Bulldozer家族中有8个等待时间为4c延迟)。尽管如此,即使你关心AMD的性能,你也需要避免它。 (其中一个转换实际上可以是vinsertf128
)。
__m256 hsum8(__m256 a, __m256 b, __m256 c, __m256 d,
__m256 e, __m256 f, __m256 g, __m256 h)
{
// a = [ A7 A6 A5 A4 | A3 A2 A1 A0 ]
__m256 sumab = _mm256_hadd_ps(a, b);
__m256 sumcd = _mm256_hadd_ps(c, d);
__m256 sumef = _mm256_hadd_ps(e, f);
__m256 sumgh = _mm256_hadd_ps(g, h);
__m256 sumabcd = _mm256_hadd_ps(sumab, sumcd); // [ D7:4 ... A7:4 | D3:0 ... A3:0 ]
__m256 sumefgh = _mm256_hadd_ps(sumef, sumgh); // [ H7:4 ... E7:4 | H3:0 ... E3:0 ]
__m256 sum_hi = _mm256_permute2f128_ps(sumabcd, sumefgh, 0x31); // [ H7:4 ... E7:4 | D7:4 ... A7:4 ]
__m256 sum_lo = _mm256_permute2f128_ps(sumabcd, sumefgh, 0x20); // [ H3:0 ... E3:0 | D3:0 ... A3:0 ]
__m256 result = _mm256_add_ps(sum_hi, sum_lo);
return result;
}
这compiles as you'd expect。第二个permute2f128
实际上编译为vinsertf128
,因为它只使用每个输入的低通道,方式与vinsertf128
相同。 gcc 4.7及更高版本执行此优化,但只有更新的clang版本(v3.7)。如果您关心旧铿锵,请在源级别执行此操作。
源代码行的节省大于指令中的节省,因为_mm256_extractf128_ps(sumabcd, 0);
编译为零指令:它只是一个演员。没有编译器应该使用除vextractf128
之外的imm8发出1
。 (vmovdqa xmm/m128, xmm
总是更适合获得低频道)。英特尔做得很好,因为普通的VEX前缀没有足够的空间对较长的矢量进行编码,因此在未来验证中会浪费一个指令字节,因为普通的VEX前缀没有空间对较长的矢量进行编码。
两条vaddps xmm
指令可以并行运行,因此使用单个vaddps ymm
主要只是吞吐量(和代码大小)增益,而不是延迟。
尽管如此,我们还是完全消除了最终的vinsertf128
,从而缩短了3个周期。
vhaddps
是3 uops,5c延迟,每2c吞吐量一个。 (Skylake的6c延迟)。这三个uop中的两个在shuffle端口上运行。我猜它基本上做了2x shufps
来为addps
生成操作数。
如果我们可以使用单个haddps
/ shufps
或其他内容模拟addps
(或至少获得我们可以使用的水平操作),那么我们就会提前出来。不幸的是,我不知道如何。单个shuffle只能使用来自两个向量的数据生成一个结果,但我们需要两个输入到垂直addps
以获得来自两个向量的数据。
我不认为以另一种方式做横向总和看起来很有希望。 Normally, hadd is not a good choice,因为常见的水平和用例只关心其输出的一个元素。在这种情况并非如此:每个hadd
结果的每个元素都被实际使用。