为什么gcc使用jmp来调用优化版本中的函数

时间:2011-11-02 17:26:54

标签: c linux gcc x86

当我组装我的程序时,我看到当使用-O3编译时,gcc正在使用 jmp 进行第二次 pthread_wait_barrier调用。为什么会这样?

使用 jmp 代替调用可以获得什么好处。编译器在这里玩什么技巧?我猜它在这里执行尾调用优化。

顺便说一下,我在这里使用静态链接。

__attribute__ ((noinline)) void my_pthread_barrier_wait( 
    volatile int tid, pthread_barrier_t *pbar ) 
{
    pthread_barrier_wait( pbar );
    if ( tid == 0 )
    {
        if ( !rollbacked )
        {
            take_checkpoint_or_rollback( ++iter == 4 );
        }
    }
    //getcontext( &context[tid] );
    SETJMP( tid );
    asm("addr2jmp:"); 
    pthread_barrier_wait( pbar );
    // My suspicion was right, gcc was performing tail call optimization, 
    // which was messing up with my SETJMP/LONGJMP implementation, so here I
    // put a dummy function to avoid that.
    dummy_var = dummy_func();
}

5 个答案:

答案 0 :(得分:12)

由于您没有显示示例,我只能猜测:被调用函数与调用函数具有相同的返回类型,这就像

return func2(...)

或根本没有返回类型(void)。

在这种情况下,“我们”在堆栈上留下“我们的”返回地址,将其留给“他们”以使用它返回“我们的”来电者。

答案 1 :(得分:6)

也许这是一个尾递归调用。 GCC有一些传递进行尾递归优化。

但你为什么要打扰?如果被调用的函数是extern函数,那么它是公共的,GCC应该遵循ABI约定来调用它(这意味着它遵循调用约定)。

你不应该关心这个函数是否被jmp调用。

它也可能是对动态库函数的调用(即使用PLT for dynamic linking

答案 2 :(得分:2)

jmp的开销比呼叫少。 jmp只是跳转,调用将一些东西推到堆栈上并跳转

答案 3 :(得分:2)

我假设这是一个尾调用,意味着当前函数返回未修改的被调用函数的结果,或者(对于返回void的函数)在函数调用之后立即返回。在任何一种情况下,都没有必要使用call

call指令执行两个功能。首先,它将调用后的指令地址作为返回地址压入堆栈。然后它跳转到呼叫的目的地。 ret弹出堆栈的返回地址并跳转到该位置。

由于调用函数返回被调用函数的结果,因此在调用函数返回后没有理由返回它。因此,只要有可能并且优化级别允许,GCC将在函数调用之前销毁其堆栈帧,以便堆栈顶部包含调用它的函数的返回地址,然后简单地跳转到被调用函数。结果是,当被调用函数返回时,它直接返回第一个函数而不是调用函数。

答案 4 :(得分:-1)

你永远不会知道,但其中一个可能的原因是“缓存”(以及其他原因,例如已经提到的尾调用优化)。

内联可以使代码更快,并且可以使代码更慢,因为更多的代码意味着它一次只能在L1缓存中。

JMP允许编译器在很少或根本没有成本的情况下重用相同的代码。现代处理器深度流水线化,管道越过JMP没有问题(这里不可能出现误预测!)。 在一般情况下,它将花费1-2个周期,在最好的情况下为零周期,因为CPU必须等待先前的指令才能退出。这显然完全取决于各自的个人代码 原则上,编译器甚至可以使用具有公共部分的多个函数来执行此操作。