g ++ c ++ 11 constexpr评估性能

时间:2013-04-25 18:08:29

标签: c++ constexpr

g ++(4.7.2)和类似版本似乎在编译期间以惊人的速度评估constexpr。事实上,在我的机器上运行时比编译程序快得多。

这种行为有合理的解释吗? 是否涉及优化技术 适用于编译时,可以比实际编译的代码更快地执行? 如果是这样,哪个?

这是我的测试程序和观察结果。

#include <iostream>

constexpr int mc91(int n)
 {

     return (n > 100)? n-10 : mc91(mc91(n+11));

 }

constexpr double foo(double n)
{
   return (n>2)? (0.9999)*((unsigned int)(foo(n-1)+foo(n-2))%100):1;
}

constexpr unsigned ack( unsigned m, unsigned n )
{
    return m == 0
        ? n + 1
        : n == 0
        ? ack( m - 1, 1 )
        : ack( m - 1, ack( m, n - 1 ) );
}

constexpr unsigned slow91(int n) {
   return mc91(mc91(foo(n))%100);
}

int main(void)
{
   constexpr unsigned int compiletime_ack=ack(3,14);
   constexpr int compiletime_91=slow91(49);
   static_assert( compiletime_ack == 131069, "Must be evaluated at compile-time" );
   static_assert( compiletime_91  == 91,     "Must be evaluated at compile-time" );
   std::cout << compiletime_ack << std::endl;
   std::cout << compiletime_91  << std::endl;
   std::cout << ack(3,14) << std::endl;
   std::cout << slow91(49) << std::endl;
   return 0;
}

编译时:

time g++ constexpr.cpp -std=c++11 -fconstexpr-depth=10000000 -O3 

real    0m0.645s
user    0m0.600s
sys     0m0.032s

运行时:

time ./a.out 

131069
91
131069
91

real    0m43.708s
user    0m43.567s
sys     0m0.008s

这里mc91是通常的mac carthy f91(可以在维基百科上找到),而foo只是一个无用的函数,返回大约1到100之间的实际值,具有虚拟运行时复杂性。

编译器和编译程序使用相同的参数来评估91的缓慢计算和ackermann函数。

令人惊讶的是,程序运行速度更快,只需生成代码并通过编译器运行它,而不是执行代码本身。

2 个答案:

答案 0 :(得分:14)

在编译时,冗余(相同)constexpr调用可以是memoized,而运行时递归行为不提供此功能。

如果更改每个递归函数,例如......

constexpr unsigned slow91(int n) {
   return mc91(mc91(foo(n))%100);
}

...表单不是constexpr,但确实记住运行时的过去计算:

std::unordered_map< int, boost::optional<unsigned> > results4;
//     parameter(s) ^^^           result ^^^^^^^^

unsigned slow91(int n) {
     boost::optional<unsigned> &ret = results4[n];
     if ( !ret )
     {
         ret = mc91(mc91(foo(n))%100);
     }
     return *ret;
}

你会得到不那么令人惊讶的结果。

编译时:

time g++ test.cpp -std=c++11 -O3

real    0m1.708s
user    0m1.496s
sys     0m0.176s

运行时:

time ./a.out

131069
91
131069
91

real    0m0.097s
user    0m0.064s
sys     0m0.032s

答案 1 :(得分:9)

记忆化

这是一个非常有趣的“发现”,但答案可能比你想象的要简单。

如果在编译时所有涉及的值都是已知的,那么在声明constexpr时可以对编译时进行评估(并且如果声明值最终的变量被声明为 constexpr 以及所说的想象下面的伪代码:

f(x)   = g(x)
g(x)   = x + h(x,x)
h(x,y) = x + y

因为每个值在编译时都是已知的,所以编译器可以将上面的内容重写为等效的下面的代码:

f(x) = x + x + x

用文字表示每个函数调用都已被删除并替换为表达式本身的函数调用。同样适用的是一种名为memoization的方法,其中存储的计算表达式的结果将被存储起来,因此您只需要进行一次艰苦的工作。

如果您知道g(5) = 15为什么要再次计算?而只需在每次需要时将g(5)替换为15,这是可能的,因为声明为constexpr的函数不允许具有副作用。 / p>


运行

在运行时这没有发生(因为我们没有告诉代码以这种方式运行)。贯穿代码的小家伙需要从f跳到gh,然后从g跳回h,然后再从g跳转到f {1}}到g++ -S -Wall -pedantic -fconstexpr-depth=1000000 -std=c++11,同时存储每个函数的返回值并将其传递给下一个函数。

即使这个家伙非常非常小而且他不需要跳得很远,他仍然不喜欢一直来回跳跃,他需要做很多事情并且需要这么做;这需要时间。


但在OPs示例中,它是否真的计算编译时

是的,对于那些不相信编译器实际计算并将其作为常量二进制的常量的人,我将从下面的OP代码提供相关的汇编指令(main: .LFB1200: .cfi_startproc pushq %rbp .cfi_def_cfa_offset 16 .cfi_offset 6, -16 movq %rsp, %rbp .cfi_def_cfa_register 6 subq $16, %rsp movl $131069, -4(%rbp) movl $91, -8(%rbp) movl $131069, %esi # one of the values from constexpr movl $_ZSt4cout, %edi call _ZNSolsEj movl $_ZSt4endlIcSt11char_traitsIcEERSt13basic_ostreamIT_T0_ES6_, %esi movq %rax, %rdi call _ZNSolsEPFRSoS_E movl $91, %esi # the other value from our constexpr movl $_ZSt4cout, %edi call _ZNSolsEi movl $_ZSt4endlIcSt11char_traitsIcEERSt13basic_ostreamIT_T0_ES6_, %esi movq %rax, %rdi # ... # a lot of jumping is taking place down here # see the full output at http://codepad.org/Q8D7c41y 的输出)

{{1}}