C ++优化if / else语句

时间:2016-10-02 09:56:07

标签: c++ if-statement optimization

我编写了以下代码来模拟和简化我的应用程序中发生的事情。

在这种简化中,我有 if else 分支执行相同的代码,但写入内存的不同部分。所以我想使用两个条目的数组,并根据语句条件更新第一个或第二个条目 该解决方案带来了预期的加速。

但是在执行期间,每次迭代都有随机访问,这种改进几乎消失了。为了显示这种奇怪的行为,我使用了模板来激活或停用if语句和随机访问的使用,即.. useif :使用if语句时为true,使用内存访问时为false rand_access :当我们对每次迭代进行随机访问时为true,否则为false。

#include <chrono>
#include <iostream>
#include <vector>
#include <numeric>
#include <algorithm>
#define N 1000000000
using namespace std;
using namespace std::chrono;

template <bool useif, bool rand_access>
void exec(vector<int>& V, vector<bool>& B) {
    auto start = high_resolution_clock::now();
    int sum[2], sum1 = 0, sum2 = 0;
    sum[0] = 0; sum[1] = 0;
    for ( int i = 0; i < N; i++ ) {
        const int index = (rand_access) ? V[i] : i;
        if ( useif ){
            if ( B[index] ) sum2 += V[i];
            else sum1 += V[i];
        } else
            sum[B[index]] += V[i];
    }
    auto t = std::chrono::duration_cast<milliseconds>(high_resolution_clock::now() - start);
    std::cout << "Time useif="<<useif<<", rand_access="<<rand_access<<" : " << t.count() << " ms" << std::endl;
    std::cout << (sum1+sum2+sum[0]+sum[1]) << std::endl;
}

int main() {
    vector<int> V(N);
    vector<bool> B(N, false);
    iota( V.begin(), V.end(), 0 );
    random_shuffle( V.begin(), V.end() );
    fill( B.begin(), B.begin() + B.size()/2, true);
    random_shuffle( B.begin(), B.end() );
    exec<false, false>(V, B);
    exec<false, true>(V, B);
    exec<true, false>(V, B);
    exec<true, true>(V, B); 
    return 0;
}

在我的机器上,用g ++编译--std = c ++ 11 -O3 -march = native -mtune = native,我得到以下结果:
时间useif = 0,rand_access = 0: 1518 ms
时间useif = 0,rand_access = 1: 10791 ms
时间useif = 1,rand_access = 0: 4384 ms
时间useif = 1,rand_access = 1: 12214 ms

因此,当 NOT 涉及随机访问时,加速 2.8 替换带有内存访问的if语句,否则性能确实如此关闭( 1.1 加速)。

我不明白为什么会这样,我该怎么处理它,即如何优化 if语句知道 if else 分支正在执行相同的代码?

1 个答案:

答案 0 :(得分:2)

使用数组优化if / else是正确的。它总能给你一个改进,但改进的意义也取决于其他因素。

您的实验显示了分支消除和缓存访问优化的相对影响。

当代码按顺序访问内存时,它会利用CPU缓存优化,因为引用的位置,&#34; pay&#34;仅用于其内存访问的一小部分。使用64字节高速缓存行,它就像一个令人难以置信的“买一个”,获得15个免费的&#34;存储在连续位置的4字节整数的策略。它可让您的CPU继续添加,只需很少等待内存中的数据。

当代码没有分支时,它利用了CPU指令管道。点击具有难以预测的条件的if会使管道停滞,因此在飞行中会有更少的指令&#34;在同一时间。

从分支随机访问到分支顺序访问可以节省7.8秒;消除分支可以为您节省2.8秒。

相比之下,在没有顺序访问的情况下消除分支只能提高1.5秒,因为当CPU等待内存时,消除管道停顿变得不那么重要了。