Question

我知道在AVX2中可以使用一条指令进行乘加运算。我想使用乘加指令，其中每个256位AVX2变量都包含16位，16位变量。例如，请考虑以下示例，

res = a0 * b0 + a1 * b1 + a2 * b2 + a3 * b3

在此，res a0，a1，a2，a3，b0，b1，b2，b3中的每一个都是16位变量。我一直密切关注discussion。请在下面找到我的代码以计算上面显示的示例，

#include<stdio.h>
#include<stdint.h>
#include <immintrin.h>
#include<time.h>
#include "cpucycles.c"

#pragma STDC FP_CONTRACT ON

#define AVX_LEN 16

inline __m256i mul_add(__m256i a, __m256i b, __m256i c) { 
    return _mm256_add_epi16(_mm256_mullo_epi16(a, b), c);
}

void fill_random(int16_t *a, int32_t len){  //to fill up the random array

    int32_t i;

    for(i=0;i<len;i++){     
        a[i]=(int16_t)rand()&0xffff;
    }
}

void main(){


    int16_t a0[16*AVX_LEN], b0[16*AVX_LEN];
    int16_t a1[16*AVX_LEN], b1[16*AVX_LEN];
    int16_t a2[16*AVX_LEN], b2[16*AVX_LEN];
    int16_t a3[16*AVX_LEN], b3[16*AVX_LEN];
    int16_t res[16*AVX_LEN];


    __m256i a0_avx[AVX_LEN], b0_avx[AVX_LEN];
    __m256i a1_avx[AVX_LEN], b1_avx[AVX_LEN];
    __m256i a2_avx[AVX_LEN], b2_avx[AVX_LEN];
    __m256i a3_avx[AVX_LEN], b3_avx[AVX_LEN];

    __m256i res_avx[AVX_LEN];

    int16_t res_avx_check[16*AVX_LEN];
    int32_t i,j;

    uint64_t mask_ar[4]; //for unloading AVX variables
    mask_ar[0]=~(0UL);mask_ar[1]=~(0UL);mask_ar[2]=~(0UL);mask_ar[3]=~(0UL);
    __m256i mask;
    mask = _mm256_loadu_si256 ((__m256i const *)mask_ar);

    time_t t;
    srand((unsigned) time(&t));


    int32_t repeat=100000;

    uint64_t clock1, clock2, fma_clock;

    clock1=clock2=fma_clock=0;

    for(j=0;j<repeat;j++){
        printf("j : %d\n",j);

        fill_random(a0,16*AVX_LEN);// Genrate random data
        fill_random(a1,16*AVX_LEN);
        fill_random(a2,16*AVX_LEN);
        fill_random(a3,16*AVX_LEN);

        fill_random(b0,16*AVX_LEN);
        fill_random(b1,16*AVX_LEN);
        fill_random(b2,16*AVX_LEN);
        fill_random(b3,16*AVX_LEN);


        for(i=0;i<AVX_LEN;i++){ //Load values in AVX variables

            a0_avx[i] = _mm256_loadu_si256 ((__m256i const *) (&a0[i*16]));
            a1_avx[i] = _mm256_loadu_si256 ((__m256i const *) (&a1[i*16]));
            a2_avx[i] = _mm256_loadu_si256 ((__m256i const *) (&a2[i*16]));
            a3_avx[i] = _mm256_loadu_si256 ((__m256i const *) (&a3[i*16]));

            b0_avx[i] = _mm256_loadu_si256 ((__m256i const *) (&b0[i*16]));
            b1_avx[i] = _mm256_loadu_si256 ((__m256i const *) (&b1[i*16]));
            b2_avx[i] = _mm256_loadu_si256 ((__m256i const *) (&b2[i*16]));
            b3_avx[i] = _mm256_loadu_si256 ((__m256i const *) (&b3[i*16]));
        }

        for(i=0;i<AVX_LEN;i++){
            res_avx[i]= _mm256_set_epi64x(0, 0, 0, 0);
        }

        //to calculate a0*b0 + a1*b1 + a2*b2 + a3*b3

        //----standard calculation----
        for(i=0;i<16*AVX_LEN;i++){
            res[i]=a0[i]*b0[i] + a1[i]*b1[i] + a2[i]*b2[i] + a3[i]*b3[i];
        }


        //-----AVX-----

        clock1=cpucycles();


        for(i=0;i<AVX_LEN;i++){ //simple approach

            a0_avx[i]=_mm256_mullo_epi16(a0_avx[i], b0_avx[i]);
            res_avx[i]=_mm256_add_epi16(a0_avx[i], res_avx[i]);

            a1_avx[i]=_mm256_mullo_epi16(a1_avx[i], b1_avx[i]);
            res_avx[i]=_mm256_add_epi16(a1_avx[i], res_avx[i]);

            a2_avx[i]=_mm256_mullo_epi16(a2_avx[i], b2_avx[i]);
            res_avx[i]=_mm256_add_epi16(a2_avx[i], res_avx[i]);

            a3_avx[i]=_mm256_mullo_epi16(a3_avx[i], b3_avx[i]);
            res_avx[i]=_mm256_add_epi16(a3_avx[i], res_avx[i]);

        }

        /*
        for(i=0;i<AVX_LEN;i++){ //FMA approach

            res_avx[i]=mul_add(a0_avx[i], b0_avx[i], res_avx[i]);

            res_avx[i]=mul_add(a1_avx[i], b1_avx[i], res_avx[i]);
            res_avx[i]=mul_add(a2_avx[i], b2_avx[i], res_avx[i]);

            res_avx[i]=mul_add(a3_avx[i], b3_avx[i], res_avx[i]);

        }
        */

        clock2=cpucycles();
        fma_clock = fma_clock + (clock2-clock1);

        //-----Check----

        for(i=0;i<AVX_LEN;i++){ //store avx results for comparison
            _mm256_maskstore_epi64 (res_avx_check + i*16, mask, res_avx[i]);
        }

        for(i=0;i<16*AVX_LEN;i++){
            if(res[i]!=res_avx_check[i]){

                printf("\n--ERROR--\n");
                return;
            }   

        }
    }


    printf("Total time taken is :%llu\n", fma_clock/repeat);

}

cpucycles代码来自ECRYPT，如下所示，

#include "cpucycles.h"

long long cpucycles(void)
{
  unsigned long long result;
  asm volatile(".byte 15;.byte 49;shlq $32,%%rdx;orq %%rdx,%%rax"
    : "=a" (result) ::  "%rdx");
  return result;
}

我的gcc -version返回，

gcc (GCC) 4.8.5 20150623 (Red Hat 4.8.5-36)

我正在使用

 Intel(R) Core(TM) i7-7700 CPU @ 3.60GHz

当我在计算机上运行它时，我分别获得以下fma方法和简单方法的循环

FMA approach : Total time taken is :109
Simple approach : Total time taken is :141

如您所见，FMA方法稍快一些，但我希望更快。我知道在我的示例代码中有很多内存访问，这可能是性能下降的原因。但是

当我转储程序集时，我会看到两种方法几乎相似的说明。我在FMA版本中看不到任何fma指令。我不明白原因。是因为_mm256_mullo_epi16指令吗？
我的方法正确吗？
您能帮我解决这个问题吗？

我是AVX2编程的新手，所以很有可能我做了一些不太标准的事情，但是我很乐意回答一些不清楚的事情。我感谢大家的提前帮助。

Answer 1

x86除了水平pmaddubsw / pmaddwd之外没有将SIMD整数FMA / MAC（乘累加）添加到水平整数中。（直到AVX512IFMA _mm_madd52lo_epu64或AVX512_4VNNIW _mm512_4dpwssd_epi32(__m512i, __m512ix4, __m128i *)）。

FP-contract和-ffast-math选项与SIMD整数无关。整数数学总是精确的。

我认为您的“简单”方法比较慢，因为您也在修改输入数组，而且这种优化没有得到优化，例如

a0_avx[i] = _mm256_mullo_epi16(a0_avx[i], b0_avx[i]);

以及更新res_avx[i]。

如果编译器没有对此进行优化，那么这些多余的存储可能正是为什么它比您的mul_add函数慢的原因。无需序列化指令的rdtsc甚至不必等待更早的指令执行，更不用说将存储撤回或提交到L1d高速缓存了，但是前端的额外附加操作还有很多不足之处。每个时钟只有1个商店的吞吐量，这很容易成为新的瓶颈。

仅供参考，您无需将输入内容复制到__m256i 的数组中。通常，您只对常规数据使用SIMD加载。这并不比索引__m256i的数组慢。您的数组太大，编译器无法完全展开并将所有内容保留在寄存器中（就像标量__m256i变量那样）。

如果仅在循环内使用__m256i a0 = _mm256_loadu_si256(...)，则可以更新a0而不会降低代码速度，因为它只是一个可以保存在YMM reg中的局部变量。

但是我发现在大多数步骤中使用新的名为tmp vars的方法是一种很好的风格，以使代码更具自记录性。像__m256i ab = ...或sum = ...。您可以为每个sum和a0+b0重用相同的a1+b1临时地址。

您还可以对结果向量使用临时变量，而不是让编译器优化res_avx[i]上的存储器更新，直到最后一个。

您可以使用alignas(32) int16_t a0[...];而不是_mm256_load使loadu的普通数组对齐。

您的cpucycles() RDTSC函数不需要使用内联汇编。 Use __rdtsc() instead.

如何对16位压缩整数使用融合乘法和AVX加法

1 个答案: