我有一个奇怪的发生,无法解释。我正在尝试编写一些数字代码,从而对一些实现进行基准测试。我只是想用 SSE 和 AVX 以及gcc自动矢量化来对一些矢量添加进行基准测试。为了测试它,我使用并修改了下面的代码。
代码:
#include <iostream>
#include <immintrin.h>
#include "../../time/timer.hpp"
void ser(double* a, double* b, double* res, int size){
for(int i(0); i < size; i++ )
{
res[i] = a[i] + b[i];
}
}
void sse(double* a, double* b, double* res, int size){
for (int i(0); i < (size & ~0x1); i += 2 )
{
const __m128d kA2 = _mm_load_pd( &a[i] );
const __m128d kB2 = _mm_load_pd( &b[i] );
const __m128d kRes = _mm_add_pd( kA2, kB2 );
_mm_store_pd( &res[i], kRes );
}
}
void avx(double* a, double* b, double* res, int size){
for (int i(0); i < (size & ~0x3); i += 4 )
{
const __m256d kA4 = _mm256_load_pd( &a[i] );
const __m256d kB4 = _mm256_load_pd( &b[i] );
const __m256d kRes = _mm256_add_pd( kA4, kB4 );
_mm256_store_pd( &res[i], kRes );
}
}
#define N 1e7*64
int main(int argc, char const *argv[])
{
double* a = (double*)_mm_malloc(N*sizeof(double), 64);
double* b = (double*)_mm_malloc(N*sizeof(double), 64);
double* res = (double*)_mm_malloc(N*sizeof(double), 64);
Timer tm;
tm.start();
avx(a,b,res,N);
tm.stop();
std::cout<<"AVX\t"<<tm.elapsed()<<" ms\t"
<<1e-6*N/tm.elapsed() <<" GFLOP/s"<<std::endl;
tm.start();
sse(a,b,res,N);
tm.stop();
std::cout<<"SSE\t"<<tm.elapsed()<<" ms\t"
<<1e-6*N/tm.elapsed() <<" GFLOP/s"<<std::endl;
tm.start();
ser(a,b,res,N);
tm.stop();
std::cout<<"SER\t"<<tm.elapsed()<<" ms\t"
<<1e-6*N/tm.elapsed() <<" GFLOP/s"<<std::endl;
return 0;
}
对于时间和计算的GFLOP / S,我得到:
./test3
AVX 1892 ms 0.338266 GFLOP/s
SSE 408 ms 1.56863 GFLOP/s
SER 396 ms 1.61616 GFLOP/s
与我的i5 6600K的约170 GFLOP / s的peak performance相比,显然非常慢。
我错过了什么重要的吗?我知道在CPU上添加矢量并不是最好的主意,但这些结果非常糟糕。谢谢你的任何线索。
答案 0 :(得分:0)
您的应用程序很可能是内存限制而不是CPU限制。换句话说,内存带宽是瓶颈,因此矢量化在这里没有多大帮助。
答案 1 :(得分:-2)
最有可能与分支预测有关(阅读Why is it faster to process a sorted array than an unsorted array?以获得更详细的解释)。在我的i5-4200U上,当按照AVX,SSE,SER的顺序处理100000000双打时,我得到了这个。
AVX 807 ms 0.123916 GFLOP/s
SSE 215 ms 0.465116 GFLOP/s
SER 287 ms 0.348432 GFLOP/s
但是如果我将它改为SER,AVX,SSE我就得到了这个
SER 753 ms 0.132802 GFLOP/s
AVX 225 ms 0.444444 GFLOP/s
SSE 196 ms 0.510204 GFLOP/s
为什么它离你的CPU的峰值性能到目前为止还不知道。