检查比较结果的多个向量中的每个向量中至少有1个元素为真-水平或然后与

时间:2019-07-18 09:57:14

标签: sse simd intrinsics altivec spu

我正在寻找同一向量的分量之间的SSE按位或。 (编者注:这可能是一个X-Y问题,有关真正的比较逻辑,请参见下文。)

我正在从SPU内部函数移植一些SIMD逻辑。它有一条指令

spu_orx(a)

根据docs

  

spu_orx:或d = spu_orx(a)上的单词   向量a在逻辑上是Ored。结果在单词元素0中返回   向量d。 d的所有其他元素(1,2,3)被分配为   零。

我如何使用涉及最小指令的SSE 2-4来做到这一点? _mm_or_ps是我到这里来的。

更新:

这是基于SPU的代码中的场景:

qword res =  spu_orx(spu_or(spu_fcgt(x, y), spu_fcgt(z, w)))

因此,它首先对两个“更大”的比较进行“或”运算,然后对其结果进行“或”运算。 这些结果的后几对进行“与”运算,以获得最终比较值。

这实际上是在做(A||B||C||D||E||F||G||H) && (I||J||K||L||M||N||O||P) && ...,其中A..D是fcgt(x,y)的4x 32位元素,依此类推。

显然_mm_or_ps的垂直_mm_cmp_ps是减少到1个向量的好方法,但是那又是什么呢?随机+或其他?

更新1

关于“但是那又是什么?” 我执行

     qword res =  spu_orx(spu_or(spu_fcgt(x, y), spu_fcgt(z, w)))

在SPU上是这样的:

 qword aRes  = si_and(res, res1);
 qword aRes1 = si_and(aRes, res2);
 qword aRes2 = si_and(aRes1 , res3);
 return si_to_uint(aRes2 );

多次在不同的输入上进行运算,然后将这些结果全部合并为一个结果,最后将其转换为整数0或1(假/真检验)

1 个答案:

答案 0 :(得分:3)

SSE4.1 PTEST bool any_nonzero = !_mm_testz_si128(v,v);

这将是对向量进行水平OR +将其布尔化为0/1整数的好方法。它将编译为多条指令,并且ptest same,same本身为2 oups。但是一旦将结果作为标量整数,则标量AND甚至比任何向量指令都便宜,并且您可以直接在结果上分支,因为它设置了整数标志。

#include <immintrin.h>
bool any_nonzero_bit(__m128i v) {
    return !_mm_testz_si128(v,v);
}

On Godbolt,带有gcc9.1 -O3 -march = nehalem:

any_nonzero(long long __vector(2)):
    ptest   xmm0, xmm0                        # 2 uops
    setne   al                                # 1 uop with false dep on old value of RAX
    ret

对于整数寄存器中的一位进行水平“或”运算,这在Intel上仅为3微秒。 AMD锐龙ptest仅1 uop,因此更好。

这里唯一的风险是,如果gcc或clang通过在对eax进行AL运算之前不对x setcc进行异或归零来创建错误的依赖关系。通常,gcc对花费额外的操作来打破错误的依赖关系非常狂热,所以我不知道为什么它不在这里。 (我确实与-march=skylake-mtune=generic进行过核对,以防它依赖于-march=nehalem的Nehalem部分寄存器重命名。甚至-march=znver1都没有将它转换为零或零的EAX在ptest之前。)

如果我们可以避免使用_mm_or_ps并让PTEST完成所有工作,那将是很好的。但是,即使我们考虑反转比较,垂直与/水平或的行为也无法让我们检查2个向量的所有8个元素,或这8个元素的任何

例如Can PTEST be used to test if two registers are both zero or some other condition?

  // NOT USEFUL
 // 1 if all the vertical pairs AND to zero.
 // but 0 if even one vertical AND result is non-zero
_mm_testz_si128( _mm_castps_si128(_mm_cmpngt_ps(x,y)), 
                 _mm_castps_si128(_mm_cmpngt_ps(z,w)));

我提到这一点只是为了排除它,并为您节省了考虑此优化想法的麻烦。 (@chtz在评论中提出了建议。反转比较是一个好主意,对其他处理方式很有用。)


没有SSE4.1 /延迟水平OR

我们也许可以将水平ORing /布尔化延迟到组合了多个向量的某些结果之后。这样会使合并变得更加昂贵(imul之类的东西),但在向量->整数级vs. PTEST方面节省了2 uop。

x86具有便宜的向量掩码->具有_mm_movemask_ps的整数位图。特别是如果您最终想要基于结果,这可能是个好主意。 (但是x86也不具有||指令来布尔化其输入,因此您不能仅仅&来获得移动掩码结果。)

您可以做的一件事情是整数 movemask的结果:x * y是非零的,前提是两个输入都非零。与x & y不同,对于0b0101 & 0b1010 for example. (Our inputs are 4-bit movemask results and unsigned`可能为false,它是32位的,因此在溢出之前我们有一定的空间)。 AMD Bulldozer系列的整数乘法没有完全流水线化,因此这可能是旧AMD CPU的瓶颈。对于某些慢速64位乘法的低功耗CPU,仅使用32位整数也很合适。

尽管吞吐量movmskps只能在一个端口上运行,但是如果吞吐量更多的是瓶颈而不是延迟,那么这可能会很好。

我不确定是否有任何便宜的整数运算可让我们稍后恢复逻辑AND结果。添加无效。即使只有一个输入为非零,结果也不为零。如果我们最终仅测试任何非零位,则将位连接在一起(移位+或)当然也像OR。我们不能只是按位AND,因为2 & 1 == 02 && 1不同。


将其保留在向量域中

4个元素的水平或运算需要多个步骤

最明显的方法是_mm_movehl_ps + OR,然后是另一个shuffle + OR。 (请参见Fastest way to do horizontal float vector sum on x86,但将_mm_add_ps替换为_mm_or_ps

但是,由于我们的输入是比较结果时,实际上并不需要精确的按位“或”运算,因此我们只关心是否有任何元素为非零。我们可以并且应该将向量视为整数,并查看诸如64位元素==之类的整数指令。一个64位元素覆盖/别名化两个32位元素。

__m128i cmp = _mm_castps_si128(cmpps_result);               // reinterpret: zero instructions
                 // SSE4.1 pcmpeqq 64-bit integer elements
__m128i cmp64 = _mm_cmpeq_epi64(cmp, _mm_setzero_si128());  // -1 if both elements were zero, otherwise 0
__m128i swap =  _mm_shuffle_epi32(cmp64, _MM_SHUFFLE(1,0, 3,2));  // copy and swap, no movdqa instruction needed even without AVX
__m128i bothzero = _mm_and_si128(cmp64, swap);              // both halves have the full result

此逻辑取反后,对多个bothzero结果进行“或”运算将为您提供所要查找的多个条件的AND。

或者,SSE4.1 _mm_minpos_epu16(cmp64) (phminposuw)会在1 uop(但有5个周期延迟)的情况下告诉我们,如果任一qword为零。在这种情况下,它将00xFFFF放在结果的最低字(16位)中。

如果我们颠倒了原始比较,则可以对此使用phminposuw(不使用pcmpeqq)来检查是否为零。因此,基本上,向量。 (假设它的元素为0 / -1)。我认为这对于反向输入是有用的结果。 (并且使我们免于使用_mm_xor_si128翻转位)。

pcmpeqq(_mm_cmpeq_epi64)的替代方法是对置零的向量进行SSE2 psadbw,以在每个64位元素的底部获得0或非零结果。不过,它不会是面具,而是0xFF * 8。尽管如此,它始终是0或0,因此您仍然可以对其进行运算。而且它不会反转。