反向迭代,for循环或while循环哪个更快?

时间:2016-02-21 22:55:55

标签: for-loop while-loop rust memmove

我正在尝试在Rust中实现标准memmove函数,我想知道哪种方法对于向下迭代更快(src< dest}:

for i in (0..n).rev() {
    //Do copying
}

let mut i = n;
while i != 0 {
    i -= 1;
    // Do copying
}

rev()循环版本中的for会显着减慢它吗?

3 个答案:

答案 0 :(得分:7)

TL; DR:使用for循环。

两者都应该同样快。我们可以检查编译器是否能够简单地剥离for循环中涉及的抽象层:

#[inline(never)]
fn blackhole() {}

#[inline(never)]
fn with_for(n: usize) {
    for i in (0..n).rev() { blackhole(); }
}

#[inline(never)]
fn with_while(n: usize) {
    let mut i = n;
    while i > 0 {
        blackhole();
        i -= 1;
    }
}

这会生成此LLVM IR:

; Function Attrs: noinline nounwind readnone uwtable
define internal void @_ZN8with_for20h645c385965fcce1fhaaE(i64) unnamed_addr #0 {
entry-block:
  ret void
}

; Function Attrs: noinline nounwind readnone uwtable
define internal void @_ZN10with_while20hc09c3331764a9434yaaE(i64) unnamed_addr #0 {
entry-block:
  ret void
}

即使您不熟悉LLVM,很明显两个函数都编译为相同的IR(因此显然是同一个程序集)。

由于它们的性能相同,因此应该更喜欢更明确的for循环,并将while循环保留给迭代不规则的情况。

编辑:解决starblue对不合适的担忧。

#[link(name = "snappy")]
extern {
    fn blackhole(i: libc::c_int) -> libc::c_int;
}

#[inline(never)]
fn with_for(n: i32) {
    for i in (0..n).rev() { unsafe { blackhole(i as libc::c_int); } }
}

#[inline(never)]
fn with_while(n: i32) {
    let mut i = n;
    while i > 0 {
        unsafe { blackhole(i as libc::c_int); }
        i -= 1;
    }
}

编译为:

; Function Attrs: noinline nounwind uwtable
define internal void @_ZN8with_for20h7cf06f33e247fa35maaE(i32) unnamed_addr #1 {
entry-block:
  %1 = icmp sgt i32 %0, 0
  br i1 %1, label %match_case.preheader, label %clean_ast_95_

match_case.preheader:                             ; preds = %entry-block
  br label %match_case

match_case:                                       ; preds = %match_case.preheader, %match_case
  %.in = phi i32 [ %2, %match_case ], [ %0, %match_case.preheader ]
  %2 = add i32 %.in, -1
  %3 = tail call i32 @blackhole(i32 %2)
  %4 = icmp sgt i32 %2, 0
  br i1 %4, label %match_case, label %clean_ast_95_.loopexit

clean_ast_95_.loopexit:                           ; preds = %match_case
  br label %clean_ast_95_

clean_ast_95_:                                    ; preds = %clean_ast_95_.loopexit, %entry-block
  ret void
}

; Function Attrs: noinline nounwind uwtable
define internal void @_ZN10with_while20hee8edd624cfe9293IaaE(i32) unnamed_addr #1 {
entry-block:
  %1 = icmp sgt i32 %0, 0
  br i1 %1, label %while_body.preheader, label %while_exit

while_body.preheader:                             ; preds = %entry-block
  br label %while_body

while_exit.loopexit:                              ; preds = %while_body
  br label %while_exit

while_exit:                                       ; preds = %while_exit.loopexit, %entry-block
  ret void

while_body:                                       ; preds = %while_body.preheader, %while_body
  %i.05 = phi i32 [ %3, %while_body ], [ %0, %while_body.preheader ]
  %2 = tail call i32 @blackhole(i32 %i.05)
  %3 = add nsw i32 %i.05, -1
  %4 = icmp sgt i32 %i.05, 1
  br i1 %4, label %while_body, label %while_exit.loopexit
}

核心循环是:

; -- for loop
match_case:                                       ; preds = %match_case.preheader, %match_case
  %.in = phi i32 [ %2, %match_case ], [ %0, %match_case.preheader ]
  %2 = add i32 %.in, -1
  %3 = tail call i32 @blackhole(i32 %2)
  %4 = icmp sgt i32 %2, 0
  br i1 %4, label %match_case, label %clean_ast_95_.loopexit

; -- while loop
while_body:                                       ; preds = %while_body.preheader, %while_body
  %i.05 = phi i32 [ %3, %while_body ], [ %0, %while_body.preheader ]
  %2 = tail call i32 @blackhole(i32 %i.05)
  %3 = add nsw i32 %i.05, -1
  %4 = icmp sgt i32 %i.05, 1
  br i1 %4, label %while_body, label %while_exit.loopexit

唯一的区别是:

  • 表示在调用blackhole之前递减,而在
  • 之后递减
  • 用于与0进行比较,而与1
  • 进行比较

否则,它是相同的核心循环。

答案 1 :(得分:3)

简而言之:它们(几乎)同样快 - 使用for循环!

更长的版本

首先:rev()仅适用于实现DoubleEndedIterator的迭代器,它提供next_back()方法。预计此方法将在o(n)(次线性时间)内运行,通常为O(1)(常数时间)。事实上,通过查看implementation of next_back() for Range,我们可以看到它在恒定的时间内运行。

现在我们知道两个版本都有渐近相同的运行时。如果是这种情况,您通常应该停止考虑并使用更惯用的解决方案(在这种情况下为for)。过早考虑优化通常会降低编程效率,因为性能只对您编写的所有代码中的一小部分很重要。

但是,由于您正在实施memmove,性能可能实际上对您很重要。所以让我们试着看看生成的ASM。我用了这段代码:

#![feature(start)]
#![feature(test)]

extern crate test;

#[inline(never)]
#[no_mangle]
fn with_for(n: usize) {
    for i in (0..n).rev() { 
        test::black_box(i); 
    }
}

#[inline(never)]
#[no_mangle]
fn with_while(n: usize) {
    let mut i = n;
    while i > 0 {
        test::black_box(i);
        i -= 1;
    }
}

#[start]
fn main(_: isize, vargs: *const *const u8) -> isize {
    let random_enough_value = unsafe {
        **vargs as usize
    };

    with_for(random_enough_value);
    with_while(random_enough_value);
    0
}

Playground Link

#[no_mangle]旨在提高生成的ASM的可读性。 #inline(never)random_enough_value以及black_box用于阻止LLVM优化我们不想优化的内容。生成的ASM(在发布模式下!)进行了一些清理,如下所示:

with_for:                       |   with_while:
    testq   %rdi, %rdi          |       testq   %rdi, %rdi
    je  .LBB0_3                 |       je  .LBB1_3
    decq    %rdi                |   
    leaq    -8(%rsp), %rax      |       leaq    -8(%rsp), %rax
.LBB0_2:                        |   .LBB1_2:
    movq    %rdi, -8(%rsp)      |       movq    %rdi, -8(%rsp)
    decq    %rdi                |       decq    %rdi
    cmpq    $-1, %rdi           |       
    jne .LBB0_2                 |       jne .LBB1_2
.LBB0_3:                        |   .LBB1_3:
    retq                        |       retq

唯一的区别是with_while有两个指令较少,因为它会倒计时到0而不是-1,就像with_for那样。

结论:如果你能说出渐近运行时是最优的,你根本不应该考虑优化。现代优化器非常聪明,可以将高级构造编译成非常完美的ASM。通常,无论如何,数据布局和产生的缓存效率比最小指令数重要得多。

如果您确实需要考虑优化,请查看ASM(或LLVM IR)。在这种情况下,for循环实际上有点慢(更多指令,与-1而不是0比较)。但是Rust程序员应该关心的案例数量可能是微不足道的。

答案 2 :(得分:1)

对于小N,它确实不重要。

Rust在迭代器上很懒惰;在您实际询问元素之前,0..n不会导致任何评估。 rev()首先要求最后一个元素。据我所知,Rust计数器迭代器很聪明,不需要生成第一个N-1元素来获取N个元素。在这种特定情况下,rev方法可能更快。

在一般情况下,它取决于迭代器具有何种访问范例和访问时间;确保访问结束需要花费一些时间,并且它没有任何作用。

与所有基准测试问题一样,取决于。自己测试N值!

过早优化也是邪恶的,所以如果你的N很小,并且你的循环不经常做,那就不用担心了。