为什么以这种方式内联更改汇编代码?

时间:2018-02-12 16:45:32

标签: c++ assembly inline

我写了一个非常简单的C ++程序来理解“内联”是如何工作的:

inline int square(int x) {
    return x*x;
}

int main() {
    int y = square(1234);
    return y;
}

我将它编译为汇编代码,没有和“内联”。奇怪的是,在这两种情况下都生成了一个函数,但它是不同的。没有内联代码看起来像这样(删除大多数注释):

_Z6squarei:                             # @_Z6squarei
    pushq   %rbp
    movq    %rsp, %rbp
    movl    %edi, -4(%rbp)
    movl    -4(%rbp), %edi
    imull   -4(%rbp), %edi
    movl    %edi, %eax
    popq    %rbp
    retq
.Lfunc_end0:

main:                                   # @main
    pushq   %rbp
    movq    %rsp, %rbp
    subq    $16, %rsp
    movl    $1234, %edi             # imm = 0x4D2
    movl    $0, -4(%rbp)
    callq   _Z6squarei
    movl    %eax, -8(%rbp)
    movl    -8(%rbp), %eax
    addq    $16, %rsp
    popq    %rbp
    retq
.Lfunc_end1:

使用内联,它看起来像这样:

main:                                   # @main
    .cfi_startproc
    pushq   %rbp
.Lcfi0:
    .cfi_def_cfa_offset 16
.Lcfi1:
    .cfi_offset %rbp, -16
    movq    %rsp, %rbp
.Lcfi2:
    .cfi_def_cfa_register %rbp
    subq    $16, %rsp
    movl    $1234, %edi             # imm = 0x4D2
    movl    $0, -4(%rbp)
    callq   _Z6squarei
    movl    %eax, -8(%rbp)
    movl    -8(%rbp), %eax
    addq    $16, %rsp
    popq    %rbp
    retq
.Lfunc_end0:

_Z6squarei:                             # @_Z6squarei
    pushq   %rbp
    movq    %rsp, %rbp
    movl    %edi, -4(%rbp)
    movl    -4(%rbp), %edi
    imull   -4(%rbp), %edi
    movl    %edi, %eax
    popq    %rbp
    retq
.Lfunc_end1:

除了新的“cfi”指令外,它非常相似。为什么他们只有在我使用“内联”时才会出现?

还有第二个问题:有没有办法告诉编译器真正使这个函数内联? (我使用的是clang ++ - 5.0)。

1 个答案:

答案 0 :(得分:2)

unsigned int fun0 ( unsigned int );

static unsigned int fun1 ( unsigned int x )
{
    return(x+1);
}

unsigned int fun2 ( unsigned int x )
{
    return(x+2);
}

inline unsigned int fun3 ( unsigned int x )
{
    return(x+3);
}

unsigned int hello ( unsigned int x )
{
    unsigned int y;
    y=fun0(x);
    y=fun1(y);
    y=fun2(y);
    y=fun3(y);
    return(y);
}

故意使用不同的指令集:

Disassembly of section .text:

00000000 <fun2>:
   0:   e2800002    add r0, r0, #2
   4:   e12fff1e    bx  lr

00000008 <hello>:
   8:   e92d4010    push    {r4, lr}
   c:   ebfffffe    bl  0 <fun0>
  10:   e8bd4010    pop {r4, lr}
  14:   e2800006    add r0, r0, #6
  18:   e12fff1e

fun0()是外部的,编译器没有可见性,它必须设置一个调用并获取返回值。

fun1()被标记为静态,因此我们已经指出我们希望该函数对于此对象/文件/范围是本地的,因此编译器没有理由在那里创建一个函数供其他人远程访问,并且优化器可以看到它在同一个文件中的功能,因此选择内联它。

fun2()没有特殊标记它被假定为全局因此编译器需要提供执行该函数的代码供其他人使用,但同时优化器看到该函数,它在同一个文件中,所以将其优化为内联和fun1。

fun3()我们指出编译器可以内联这个,有点暗示它是在这个范围内消费,所以像静态编译器没有为全局消费生成代码,并且优化(内联)

函数hello将x发送到fun0(),将其转换为y。然后我们加1 + 2 + 3 = 6。因此,为了内联fun1,fun2,fun3,你只需在fun0()的输出中加上6即可。这就是我们所看到的fun1()fun2()和fun3()的内联。

这里的混淆可能是内联意味着它意味着排队。不要调用功能包括与调用者一致的功能。

unsigned int fun2 ( unsigned int x )
{
    return(x+2);
}

unsigned int hello ( unsigned int x )
{
    return(fun2(x));
}

使用我正在使用的工具我实际上并不需要让它内联

00000000 <fun2>:
   0:   e2800002    add r0, r0, #2
   4:   e12fff1e    bx  lr

00000008 <hello>:
   8:   e2800002    add r0, r0, #2
   c:   e12fff1e    bx  lr

优化器无论如何都做了,而不是设置对fun2的调用,它取得了fun2的功能,即将2加到操作数上,它只是在你好的IN LINE中做到了。

使用您的工具注意,全局函数是以任何一种方式创建的,但是当您要求它内联时,它看起来并没有实际执行任何操作,请检查反汇编以及装配,反汇编通常更容易阅读,更少混淆。

注意,使用我的第一个示例和C ++编译器,所以我没有得到一个&#34;嘿,你没有使用C ++编译器&#34;:

0000000000000000 <_Z4fun2j>:
   0:   8d 47 02                lea    0x2(%rdi),%eax
   3:   c3                      retq   
   4:   66 90                   xchg   %ax,%ax
   6:   66 2e 0f 1f 84 00 00    nopw   %cs:0x0(%rax,%rax,1)
   d:   00 00 00 

0000000000000010 <_Z5helloj>:
  10:   48 83 ec 08             sub    $0x8,%rsp
  14:   e8 00 00 00 00          callq  19 <_Z5helloj+0x9>
  19:   48 83 c4 08             add    $0x8,%rsp
  1d:   83 c0 06                add    $0x6,%eax
  20:   c3                      retq   

同样的故事,内联和静态并没有产生其他人使用的全局功能。并且编译器生成了对外部函数的调用,然后为其添加了6。

注意没有优化:

00000000 <fun1>:
   0:   e52db004    push    {r11}       ; (str r11, [sp, #-4]!)
   4:   e28db000    add r11, sp, #0
   8:   e24dd00c    sub sp, sp, #12
   c:   e50b0008    str r0, [r11, #-8]
  10:   e51b3008    ldr r3, [r11, #-8]
  14:   e2833001    add r3, r3, #1
  18:   e1a00003    mov r0, r3
  1c:   e28bd000    add sp, r11, #0
  20:   e49db004    pop {r11}       ; (ldr r11, [sp], #4)
  24:   e12fff1e    bx  lr

00000028 <fun2>:
  28:   e52db004    push    {r11}       ; (str r11, [sp, #-4]!)
  2c:   e28db000    add r11, sp, #0
  30:   e24dd00c    sub sp, sp, #12
  34:   e50b0008    str r0, [r11, #-8]
  38:   e51b3008    ldr r3, [r11, #-8]
  3c:   e2833002    add r3, r3, #2
  40:   e1a00003    mov r0, r3
  44:   e28bd000    add sp, r11, #0
  48:   e49db004    pop {r11}       ; (ldr r11, [sp], #4)
  4c:   e12fff1e    bx  lr

00000050 <hello>:
  50:   e92d4800    push    {r11, lr}
  54:   e28db004    add r11, sp, #4
  58:   e24dd010    sub sp, sp, #16
  5c:   e50b0010    str r0, [r11, #-16]
  60:   e51b0010    ldr r0, [r11, #-16]
  64:   ebfffffe    bl  0 <fun0>
  68:   e50b0008    str r0, [r11, #-8]
  6c:   e51b0008    ldr r0, [r11, #-8]
  70:   ebffffe2    bl  0 <fun1>
  74:   e50b0008    str r0, [r11, #-8]
  78:   e51b0008    ldr r0, [r11, #-8]
  7c:   ebfffffe    bl  28 <fun2>
  80:   e50b0008    str r0, [r11, #-8]
  84:   e51b0008    ldr r0, [r11, #-8]
  88:   ebfffffe    bl  0 <fun3>
  8c:   e50b0008    str r0, [r11, #-8]
  90:   e51b3008    ldr r3, [r11, #-8]
  94:   e1a00003    mov r0, r3
  98:   e24bd004    sub sp, r11, #4
  9c:   e8bd4800    pop {r11, lr}
  a0:   e12fff1e    bx  lr

称他们都没有内联......你在测试中使用了什么优化?如果您尝试优化怎么办? (llvm / clang为你提供了超过gnu的多个优化机会)

使用llvm和优化编辑。

两个单独的文件

unsigned int fun0 ( unsigned int x )
{
    return(x+7);
}

和这一个

unsigned int fun0 ( unsigned int );

inline unsigned int fun3 ( unsigned int x )
{
    return(x+3);
}

unsigned int hello ( unsigned int x )
{
    unsigned int y;
    y=fun0(x);
    y=fun3(y);
    return(y);
}

没有优化的构建

0000000000000000:    0:55推%rbp    1:48 89 e5 mov%rsp,%rbp    4:89 7d fc mov%edi,-0x4(%rbp)    7:8d 47 07 lea 0x7(%rdi),%eax    a:5d pop%rbp    b:c3 retq

0000000000000000 <hello>:
   0:   55                      push   %rbp
   1:   48 89 e5                mov    %rsp,%rbp
   4:   48 83 ec 10             sub    $0x10,%rsp
   8:   89 7d fc                mov    %edi,-0x4(%rbp)
   b:   e8 00 00 00 00          callq  10 <hello+0x10>
  10:   89 45 f8                mov    %eax,-0x8(%rbp)
  13:   89 c7                   mov    %eax,%edi
  15:   e8 00 00 00 00          callq  1a <hello+0x1a>
  1a:   89 45 f8                mov    %eax,-0x8(%rbp)
  1d:   48 83 c4 10             add    $0x10,%rsp
  21:   5d                      pop    %rbp
  22:   c3                      retq   

后编译希望fun0被内联,哦,它确实优化了你好

0000000000000000 <fun0>:
   0:   55                      push   %rbp
   1:   48 89 e5                mov    %rsp,%rbp
   4:   8d 47 07                lea    0x7(%rdi),%eax
   7:   5d                      pop    %rbp
   8:   c3                      retq   
   9:   0f 1f 80 00 00 00 00    nopl   0x0(%rax)

0000000000000010 <hello>:
  10:   55                      push   %rbp
  11:   48 89 e5                mov    %rsp,%rbp
  14:   83 c7 07                add    $0x7,%edi
  17:   e8 00 00 00 00          callq  1c <hello+0xc>
  1c:   5d                      pop    %rbp
  1d:   c3                      retq   

使用优化编译。

0000000000000000 <fun0>:
   0:   8d 47 07                lea    0x7(%rdi),%eax
   3:   c3                      retq   

0000000000000000 <hello>:
   0:   50                      push   %rax
   1:   e8 00 00 00 00          callq  6 <hello+0x6>
   6:   83 c0 03                add    $0x3,%eax
   9:   59                      pop    %rcx
   a:   c3                      retq   

clang为您提供了不同的优化机会。

好了,得到它,随着你的文件数量的增加,llvm工具的优化组合几乎呈指数增长,对于更大的项目我发现如果你编译未经优化它会让后来的优化器更有用处,但当然这取决于在许多因素上,不幸的是这些组合变得惊人。如果我首先使用优化进行编译,然后再进行组合和优化,我会得到我想要的结果。

0000000000000000 <fun0>:
   0:   8d 47 07                lea    0x7(%rdi),%eax
   3:   c3                      retq   

0000000000000010 <hello>:
  10:   8d 47 0a                lea    0xa(%rdi),%eax
  13:   c3                      retq   

fun3添加了3个fun0添加了7个,对fun0的调用是内联的,我最终从两个文件一个外部函数一个内部内联,只需添加10个。

我在这里使用C但是llvm / clang就像gnu那样只是一个前端,如上所示,gnu中间发生的事情应该与C和C ++无关(就优化做自动或建议内联而言)。