我正在做一些非常简单的基准来比较C和Rust的性能。我使用了一个函数添加整数1 + 2 + ... + n
(我可以通过手动计算验证的东西),其中n = 10^10
。
Rust中的代码如下所示:
fn main() {
let limit: u64 = 10000000000;
let mut buf: u64 = 0;
for u64::range(1, limit) |i| {
buf = buf + i;
}
io::println(buf.to_str());
}
C代码如下:
#include <stdio.h>
int main()
{
unsigned long long buf = 0;
for(unsigned long long i = 0; i < 10000000000; ++i) {
buf = buf + i;
}
printf("%llu\n", buf);
return 0;
}
我编译并运行它们:
$ rustc sum.rs -o sum_rust
$ time ./sum_rust
13106511847580896768
real 6m43.122s
user 6m42.597s
sys 0m0.076s
$ gcc -Wall -std=c99 sum.c -o sum_c
$ time ./sum_c
13106511847580896768
real 1m3.296s
user 1m3.172s
sys 0m0.024s
然后我尝试使用优化标志,再次使用C和Rust:
$ rustc sum.rs -o sum_rust -O
$ time ./sum_rust
13106511847580896768
real 0m0.018s
user 0m0.004s
sys 0m0.012s
$ gcc -Wall -std=c99 sum.c -o sum_c -O9
$ time ./sum_c
13106511847580896768
real 0m16.779s
user 0m16.725s
sys 0m0.008s
这些结果让我感到惊讶。我做了期望优化有一些效果,但优化的Rust版本 100000次更快:)。
我尝试更改n
(唯一的限制是u64
,运行时间几乎为零),甚至尝试了另一个问题(1^5 + 2^5 + 3^5 + ... + n^5
),结果类似:可执行文件使用rustc -O
编译的速度比不使用标志快几个数量级,并且比使用gcc -O9
编译的同一算法快许多倍。
所以我的问题是:发生了什么事? :)我可以理解编译器优化1 + 2 + .. + n = (n*n + n)/2
,但我无法想象任何编译器都可以导出1^5 + 2^5 + 3^5 + .. + n^5
的公式。另一方面,据我所知,结果必须以某种方式计算(并且它似乎是正确的)。
哦,并且:
$ gcc --version
gcc (Ubuntu/Linaro 4.6.3-1ubuntu5) 4.6.3
$ rustc --version
rustc 0.6 (dba9337 2013-05-10 05:52:48 -0700)
host: i686-unknown-linux-gnu
答案 0 :(得分:8)
是的,编译器确实使用1 + ... + n = n*(n+1)/2
优化来移除循环,并且对于求和变量的任何幂都有类似的技巧。例如k1 are triangular numbers,k2 are pyramidal numbers,k3 are squared triangular numbers等。一般来说,甚至还有一个公式来计算∑k kp for any p。
您可以使用更复杂的表达式,以便编译器没有任何删除循环的技巧。 e.g。
fn main() {
let limit: u64 = 1000000000;
let mut buf: u64 = 0;
for u64::range(1, limit) |i| {
buf += i + i ^ (i*i);
}
io::println(buf.to_str());
}
和
#include <stdio.h>
int main()
{
unsigned long long buf = 0;
for(unsigned long long i = 0; i < 1000000000; ++i) {
buf += i + i ^ (i * i);
}
printf("%llu\n", buf);
return 0;
}
给了我
real 0m0.700s
user 0m0.692s
sys 0m0.004s
和
real 0m0.698s
user 0m0.692s
sys 0m0.000s
分别为(两个编译器均为-O
)。