SIMD:实现_mm256_max_epu64_和_mm256_min_epu64 _

时间:2019-01-28 01:01:05

标签: c++ simd avx2 avx512

我想问一个关于SIMD的问题。 我的CPU中没有AVX512,但想拥有一个_mm256_max_epu64

如何使用AVX2实现此功能?

在这里,我尝试着自己的琐碎事。也许我们可以让它成为讨论并对此进行改进。

#define SIMD_INLINE inline __attribute__ ((always_inline)) 

SIMD_INLINE __m256i __my_mm256_max_epu64_(__m256i a, __m256i b) {
  uint64_t *val_a = (uint64_t*) &a;
  uint64_t *val_b = (uint64_t*) &b;
  uint64_t e[4];
  for (size_t i = 0; i < 4; ++i) e[i] = (*(val_a + i) > *(val_b + i)) ? *(val_a + i) : *(val_b + i);
  return _mm256_set_epi64x(e[3], e[2], e[1], e[0]);
}

编辑作为摘要:

我们讨论了__mm256 无符号比较。我在上面给出了一个非常简单的实现,只是遵循了一个非常基本的概念:单个__m256i等于4 uint64_t或4 float,它们也构成了256位。

然后,我们从@chtz得到了答案,通过从AVX调用更多位编程函数,这更加AVX有意义。

最后,由于CLang,这两个实现结果在同一程序集中出现。 Assembly example from compiler explorer


添加了另一个_mm256_min_epu64_。它只是镜像上面的_mm256_max_epu64_。使其更易于搜索以备将来使用。

SIMD_INLINE __m256i __my_mm256_min_epu64_(__m256i a, __m256i b) {
  uint64_t *val_a = (uint64_t*) &a;
  uint64_t *val_b = (uint64_t*) &b;
  uint64_t e[4];
  for (size_t i = 0; i < 4; ++i) e[i] = (*(val_a + i) < *(val_b + i)) ? *(val_a + i) : *(val_b + i);
  return _mm256_set_epi64x(e[3], e[2], e[1], e[0]);
}

1 个答案:

答案 0 :(得分:5)

最简单的解决方案是将_mm256_cmpgt_epi64与掺和物结合使用。 但是,如果要无符号最大值,则需要首先从每个元素中减去1<<63(在比较之前,而不是在混合之前)。 没有_mm256_blendv_epu64指令,但是可以使用_mm256_blendv_epi8,因为掩码将在相关元素的每一位设置。另请注意,可以通过稍微快一点的xor来减去最高位:

__m256i pmax_epu64(__m256i a, __m256i b)
{
    __m256i signbit = _mm256_set1_epi64x(0x8000'0000'0000'0000);
    __m256i mask = _mm256_cmpgt_epi64(_mm256_xor_si256(a,signbit),_mm256_xor_si256(b,signbit));
    return _mm256_blendv_epi8(b,a,mask);
}

实际上,clang几乎可以从您的代码中获得相同的指令:https://godbolt.org/z/afhdOa 它仅使用vblendvpd而不是vpblendvb,这可能会引入延迟(有关详细信息,请参见@PeterCordes注释)。

通过一些位纠结,您实际上可以保存为符号位设置寄存器。 如果两个操作数的符号匹配,则无符号比较将给出相同的结果;如果两个操作数的符号不匹配,则将给出相反的结果,即

unsigned_greater_than(signed a, signed b) == (a<0) ^ (b<0) ^ (a>b)

如果您将_mm256_blendv_pd与某些强制类型转换为_mm256_blendv_epi64一起使用,则可以使用此命令(因为现在只有最高位有效):

__m256i _mm256_blendv_epi64(__m256i a, __m256i b, __m256i mask)
{
    return _mm256_castpd_si256(_mm256_blendv_pd(
        _mm256_castsi256_pd(a),_mm256_castsi256_pd(b),_mm256_castsi256_pd(mask)));
}

__m256i pmax_epu64_b(__m256i a, __m256i b)
{
    __m256i opposite_sign = _mm256_xor_si256(a,b);
    __m256i mask = _mm256_cmpgt_epi64(a,b);
    return _mm256_blendv_epi64(b,a,_mm256_xor_si256(mask, opposite_sign));
}

仅供参考,签名的最大值当然是:

__m256i pmax_epi64(__m256i a, __m256i b)
{
    __m256i mask = _mm256_cmpgt_epi64(a,b);
    return _mm256_blendv_epi8(b,a,mask);
}