Question

我已使用SSE2实现了program来分别比较AVX2和SSE2的vpsadbw指令和psadbw。以下代码是SSE2程序：

#define MAX1 4096
#define MAX2 MAX1
#define MAX3 MAX1

#define NUM_LOOP 1000000000

double pTime = 0, mTime = 5; 

//global data for sequentila matrix operations
unsigned char a_char[MAX1][MAX2] __attribute__(( aligned(16)));
unsigned char b_char[MAX2][MAX3] __attribute__(( aligned(16)));
unsigned char c_char[MAX1][MAX3] __attribute__(( aligned(16)));
unsigned short int temp[8];


int main()
{
    int i, j, w=0, sad=0;
    struct timespec tStart, tEnd;
    double tTotal , tBest=10000;
    __m128i vec1, vec2, vecT, sad_total;
    sad_total= _mm_setzero_si128();

    do{
        clock_gettime(CLOCK_MONOTONIC,&tStart);

        for(i=0; i<MAX1; i++){
            for(j=0; j<MAX2; j+=16){

                vec1 = _mm_load_si128((__m128i *)&a_char[i][j]);
                vec2 = _mm_load_si128((__m128i *)&b_char[i][j]);
                vecT = _mm_sad_epu8( vec1 , vec2);
                sad_total = _mm_add_epi64(vecT, sad_total);

                }
            }
        _mm_store_si128((__m128i *)&temp[0], sad_total);
        sad=temp[0]+temp[2]+temp[4]+temp[6];    

        clock_gettime(CLOCK_MONOTONIC,&tEnd);
        tTotal = (tEnd.tv_sec - tStart.tv_sec);
        tTotal += (tEnd.tv_nsec - tStart.tv_nsec) / 1000000000.0;
        if(tTotal<tBest)
            tBest=tTotal;
        pTime += tTotal;

    } while(w++ < NUM_LOOP && pTime < mTime);
    printf(" The best time: %lf sec in %d repetition for %dX result is %d matrix\n",tBest,w, MAX1, sad);

    return 0;
}

我使用gcc，skylake，Linux mint 当我生成汇编代码时，内部循环包含一些不需要的移动操作，如下所示：SSE2：

.L26:
    vmovdqa xmm1, XMMWORD PTR a_char[rcx+rax]
    vpsadbw xmm1, xmm1, XMMWORD PTR b_char[rcx+rax]
    add rax, 16
    vpaddq  xmm3, xmm1, XMMWORD PTR [rsp]
    cmp rax, 4096
    vmovaps XMMWORD PTR [rsp], xmm3
    jne .L26

由于AVX2生成此汇编代码：

.L26:
    vmovdqa ymm1, YMMWORD PTR a_char[rcx+rax]
    vpsadbw ymm1, ymm1, YMMWORD PTR b_char[rcx+rax]
    add rax, 32
    vpaddq  ymm2, ymm2, ymm1
    cmp rax, 4096
    jne .L26

我不知道那些显着违反性能的2移动指令的原因。

Answer 1

原因是：

_mm_store_si128((__m128i *)&temp[0], sad_total);

Clang不介意并且不管怎么做好代码，但是GCC不喜欢它（也许是失败的启发式算法？）

将其替换为不会触发“这应该一直在堆栈上”的东西 - 启发式，GCC会生成更好的代码，例如:(未经测试）

    __m128i sad_total = _mm_setzero_si128();
    for(i = 0; i < MAX1; i++) {
        for(j = 0; j < MAX2; j += 16) {
            __m128i vec1 = _mm_load_si128((__m128i *)&a_char[i][j]);
            __m128i vec2 = _mm_load_si128((__m128i *)&b_char[i][j]);
            __m128i vecT = _mm_sad_epu8( vec1 , vec2);
            sad_total = _mm_add_epi64(sad_total, vecT);
        }
    }
    __m128i hsum = _mm_add_epi64(sad_total, _mm_bsrli_si128(sad_total, 8));
    sad = _mm_cvtsi128_si32(hsum);

内循环现在看起来像

.L2:
    vmovdqa xmm1, XMMWORD PTR a_char[rdx+rax]
    vpsadbw xmm1, xmm1, XMMWORD PTR b_char[rdx+rax]
    add     rax, 16
    vpaddq  xmm2, xmm1, xmm2
    cmp     rax, 4096
    jne     .L2

Answer 2

您直接绕过编译器并告诉它通过_mm_load_si128使用movdqa。它正在做你正在告诉它的事情。这里有什么问题？我还注意到你正在沿16字节边界对齐，如果我错了（我不确定你的编译器是如何实现属性），请随时纠正我。但是你可能会得到填充结果，以便每个元素在16字节边界上对齐;如果是这样，这将影响您展开的影响。如果没有，请随时纠正我。

悲伤指导这种奇怪行为的原因是什么？

2 个答案: