C循环展开优化性能

时间:2018-10-19 12:16:06

标签: c loops optimization loop-unrolling

首先:我知道什么是循环优化及其工作原理,但是我发现无法解释结果的情况。

我创建了素数检查器,对从2到n-1的每个数字取模,因此没有算法优化。

编辑:我知道素数可以更有效地计算,但这只是循环行为的一个例子。

然后我创建了一个普通的和优化的版本:

#include <stdlib.h>
#include <stdio.h>

typedef unsigned long long natural;

int is_prime(natural n){
    int is_not_prime = 0;

    for(natural i = 2; i < n; i += 1){
        is_not_prime |= !!!(n % i);
    }

    if(is_not_prime){
        return 0;
    }else{
        return 1;
    }
}

//__attribute__((noinline))
int is_prime_opt(natural n){
    int is_not_prime = 0;

    for(natural i = 2; i < n; i += 8){
        is_not_prime |= !!(
                !(n % i) |
                !(n % i + 1) |
                !(n % i + 2) |
                !(n % i + 3) |
                !(n % i + 4) |
                !(n % i + 5) |
                !(n % i + 6) |
                !(n % i + 7));
    }

    if(is_not_prime){
        return 0;
    }else{
        return 1;
    }
}

int main(int argc, char *argv[])
{
    if(argc != 2)
        return 1;

    natural check = atoi(argv[1]);

    if(is_prime(check)){
        printf("%llu is prime\n", check);
    }

    return 0;
}

我用-O3用gcc编译了代码,以强制编译器完成所有优化。由于在编译时不知道迭代次数,因此我希望编译器不会展开循环。 我创建了第二个版本,以8个数字为单位进行相同的操作。由于某些输入不能被8整除,因此循环最多可以计算出7个项目,但这是可以接受的。

我用valgrind --tool=callgrind ./prime 100000000检查了以下周期的循环:

未优化:

==983== Callgrind, a call-graph generating cache profiler
==983== Copyright (C) 2002-2015, and GNU GPL'd, by Josef Weidendorfer et al.
==983== Using Valgrind-3.12.0.SVN and LibVEX; rerun with -h for copyright info
==983== Command: ./prime 100000000
==983== 
==983== For interactive control, run 'callgrind_control -h'.
==983== 
==983== Events    : Ir
==983== Collected : 1000098047
==983== 
==983== I   refs:      1,000,098,047

已优化:

==2307== Callgrind, a call-graph generating cache profiler
==2307== Copyright (C) 2002-2015, and GNU GPL'd, by Josef Weidendorfer et al.
==2307== Using Valgrind-3.12.0.SVN and LibVEX; rerun with -h for copyright info
==2307== Command: ./prime 100000000
==2307== 
==2307== For interactive control, run 'callgrind_control -h'.
==2307== 
==2307== Events    : Ir
==2307== Collected : 137598072
==2307== 
==2307== I   refs:      137,598,072

我希望循环速度会提高10-20%,因为我节省了1/8的跳转和检查次数。此外,分支预测应该已经加快了第一个版本的速度,因为除最后一个跳转以外的所有版本都朝着相同的方向前进。

我不清楚为什么它要快7倍以上? 自从我用100M调用它以来,我希望它至少可以做100M-3(w / o 0,1,n)取模或求和运算,但为此每个元素只需要1.37个周期(而afaik取模不是廉价的操作)。

2 个答案:

答案 0 :(得分:8)

!(n % i + 1)似乎很奇怪,n%i将得出0或正数,加上1将得出一个正数,计算!就会得到0。因此,每个!(n % i + XX)都可以被优化。

应为!(n % (i + 1))

答案 1 :(得分:0)

此发布的代码:

int is_prime(natural n){
    int is_not_prime = 0;

    for(natural i = 2; i < n; i += 1){
        is_not_prime |= !!!(n % i);
    }

    if(is_not_prime){
        return 0;
    }else{
        return 1;
    }
}

找到答案建议后正在执行许多循环

int is_prime(natural n)
{
    for(natural i = 2; i < n; i += 1)
    {
        if( !(n&i) )
            return 0;
    }
    return 1
}