为什么std :: inner_product比天真的实现慢?

时间:2017-03-28 20:38:53

标签: c++ floating-point sse numeric fast-math

这是我对点积的简单实现:

float simple_dot(int N, float *A, float *B) {
    float dot = 0;
    for(int i = 0; i < N; ++i) {
    dot += A[i] * B[i];
    }

    return dot;
}

这是使用C ++库:

float library_dot(int N, float *A, float *B) {
    return std::inner_product(A, A+N, B, 0);
}

我运行了一些基准测试(代码在这里https://github.com/ijklr/sse),库版本慢得多。 我的编译器标志是-Ofast -march=native

1 个答案:

答案 0 :(得分:8)

你的两个职能部门不做同样的事情。该算法使用一个累加器,其类型推导来自初始值,在您的情况下(0)是int。将浮点数累积到int中不仅需要花费更长的时间而不是累积到浮点数中,还会产生不同的结果。

原始循环代码的等价物是使用初始值0.0f,或等效float{}

(请注意std::accumulate在这方面非常相似。)