_mm256_load_ps在调试模式下导致Google /基准细分错误

时间:2020-06-11 12:05:50

标签: c++ segmentation-fault simd avx google-benchmark

  • 以下代码可以在发布和调试模式下运行。
#include <immintrin.h>

constexpr int n_batch = 10240;
constexpr int n = n_batch * 8;
#pragma pack(32)
float a[n];
float b[n];
float c[n];
#pragma pack()

int main() {
    for(int i = 0; i < n; ++i)
        c[i] = a[i] * b[i];

    for(int i = 0; i < n; i += 4) {
        __m128 av = _mm_load_ps(a + i);
        __m128 bv = _mm_load_ps(b + i);
        __m128 cv = _mm_mul_ps(av, bv);
        _mm_store_ps(c + i, cv);
    }

    for(int i = 0; i < n; i += 8) {
        __m256 av = _mm256_load_ps(a + i);
        __m256 bv = _mm256_load_ps(b + i);
        __m256 cv = _mm256_mul_ps(av, bv);
        _mm256_store_ps(c + i, cv);
    }
}

  • 以下代码只能在发布模式下运行,而在调试模式下会出现分段错误。
#include <immintrin.h>

#include "benchmark/benchmark.h"

constexpr int n_batch = 10240;
constexpr int n = n_batch * 8;
#pragma pack(32)
float a[n];
float b[n];
float c[n];
#pragma pack()

static void BM_Scalar(benchmark::State &state) {
    for(auto _: state)
        for(int i = 0; i < n; ++i)
            c[i] = a[i] * b[i];
}
BENCHMARK(BM_Scalar);

static void BM_Packet_4(benchmark::State &state) {
    for(auto _: state) {
        for(int i = 0; i < n; i += 4) {
            __m128 av = _mm_load_ps(a + i);
            __m128 bv = _mm_load_ps(b + i);
            __m128 cv = _mm_mul_ps(av, bv);
            _mm_store_ps(c + i, cv);
        }
    }
}
BENCHMARK(BM_Packet_4);

static void BM_Packet_8(benchmark::State &state) {
    for(auto _: state) {
        for(int i = 0; i < n; i += 8) {
            __m256 av = _mm256_load_ps(a + i); // Signal: SIGSEGV (signal SIGSEGV: invalid address (fault address: 0x0))
            __m256 bv = _mm256_load_ps(b + i);
            __m256 cv = _mm256_mul_ps(av, bv);
            _mm256_store_ps(c + i, cv);
        }
    }
}
BENCHMARK(BM_Packet_8);

BENCHMARK_MAIN();

1 个答案:

答案 0 :(得分:5)

您的数组未对齐32。您可以使用调试器进行检查。

#pragma pack(32)仅对齐struct / union / class成员as documented by MS。 C ++数组是另一种对象,完全不受MSVC编译指示的影响。 (不过,我认为您实际上是在使用GCC或clang的版本,因为MSVC通常使用vmovups而不是vmovaps

对于静态或自动存储(未动态分配)中的数组,在C ++ 11及更高版本中对齐数组的最简单方法是alignas(32)。与GNU C __attribute__((aligned(32)))或MSVC的等效版本不同,它是完全可移植的。

alignas(32) float a[n];
alignas(32) float b[n];
alignas(32) float c[n];

AVX: data alignment: store crash, storeu, load, loadu doesn't解释了为什么根据优化级别存在差异:优化的代码会将一个负载折叠到vmulps的内存源操作数中(与SSE不同),不需要对齐。 (大概第一个数组恰好对齐了。)

未经优化的代码将分别以_mm256_load_ps对齐要求的负载来执行vmovaps