C hello世界的汇编输出的每一行的含义是什么?

时间:2011-03-16 12:33:18

标签: linux gcc assembly x86

我在这上面运行了gcc -S:

int main()
{
printf ("Hello world!");
}

我得到了这个汇编代码:

        .file   "test.c"
        .section        .rodata
.LC0:
        .string "Hello world!"
        .text
.globl main
        .type   main, @function
main:
        leal    4(%esp), %ecx
        andl    $-16, %esp
        pushl   -4(%ecx)
        pushl   %ebp
        movl    %esp, %ebp
        pushl   %ecx
        subl    $20, %esp
        movl    $.LC0, (%esp)
        call    printf
        addl    $20, %esp
        popl    %ecx
        popl    %ebp
        leal    -4(%ecx), %esp
        ret
        .size   main, .-main
        .ident  "GCC: (GNU) 4.3.0 20080428 (Red Hat 4.3.0-8)"
        .section        .note.GNU-stack,"",@progbits

我很想知道这个输出。有人可以在理解这个输出时分享一些指示,或者如果有人可以针对这些行/行组中的每一行标记注释来解释它的作用,那将会很棒。

3 个答案:

答案 0 :(得分:59)

这是怎么回事:

        .file   "test.c"

原始源文件名(由调试器使用)。

        .section        .rodata
.LC0:
        .string "Hello world!"

零终止字符串包含在“.rodata”部分中(“ro”表示“只读”:应用程序将能够读取数据,但任何写入数据的尝试都将触发异常)

        .text

现在我们将内容写入“.text”部分,这是代码所在的部分。

.globl main
        .type   main, @function
main:

我们定义一个名为“main”的函数并且全局可见(其他对象文件将能够调用它)。

        leal    4(%esp), %ecx

我们在寄存器%ecx中存储值4+%esp%esp是堆栈指针)。

        andl    $-16, %esp
稍微修改了

%esp,使其成为16的倍数。对于某些数据类型(与C的doublelong double对应的浮点格式),性能更好内存访问的地址是16的倍数。这里不是真的需要,但是在没有优化标志(-O2 ...)的情况下使用时,编译器往往会生成相当多的通用无用代码(即在某些情况下可能有用的代码,但不在此处。)

        pushl   -4(%ecx)

这个有点奇怪:此时,地址-4(%ecx)处的单词是andl之前的堆栈顶部的单词。代码检索该单词(顺便说一下,它应该是返回地址)并再次推送它。这种模拟来自具有16字节对齐堆栈的函数的调用所获得的内容。我的猜测是这个push是一个参数复制序列的残余。由于函数调整了堆栈指针,因此必须复制函数参数,这些参数可通过堆栈指针的旧值访问。这里除了函数返回地址之外没有参数。请注意,不会使用此单词(再次,这是没有优化的代码)。

        pushl   %ebp
        movl    %esp, %ebp

这是标准函数序言:我们保存%ebp(因为我们即将修改它),然后将%ebp设置为指向堆栈帧。此后,%ebp将用于访问函数参数,使%esp再次释放。 (是的,没有争论,所以这对于那个函数来说没用。)

        pushl   %ecx

我们保存%ecx(我们将在功能退出时使用它,以%esp之前的值恢复andl

        subl    $20, %esp

我们在堆栈上保留32个字节(请记住堆栈增长“向下”)。该空间将用于存储printf()的参数(这是过度的,因为有一个参数,它将使用4个字节[这是一个指针])。

        movl    $.LC0, (%esp)
        call    printf

我们将参数“推”到printf()(即我们确保%esp指向包含参数的单词,此处为$.LC0,这是常量字符串的地址在rodata部分)。然后我们致电printf()

        addl    $20, %esp

printf()返回时,我们删除为参数分配的空间。这个addl取消了subl上面的内容。

        popl    %ecx

我们恢复%ecx(推到上面); printf()可能已对其进行了修改(调用约定描述了函数修改哪个寄存器而无需在退出时恢复它们; %ecx就是这样的寄存器)。

        popl    %ebp

功能结尾:这会恢复%ebp(对应上面的pushl %ebp)。

        leal    -4(%ecx), %esp

我们将%esp恢复为初始值。此操作码的作用是在%esp中存储值%ecx-4%ecx已在第一个函数操作码中设置。这取消了对%esp的任何更改,包括andl

        ret

功能退出。

        .size   main, .-main

这设置main()函数的大小:在汇编期间的任何时候,“.”是“我们现在正在添加内容的地址”的别名。如果在此处添加了另一条指令,它将转到“.”指定的地址。因此,“.-main”,这里是函数main()的代码的确切大小。 .size指令指示汇编程序在目标文件中写入该信息。

        .ident  "GCC: (GNU) 4.3.0 20080428 (Red Hat 4.3.0-8)"
海湾合作委员会只是喜欢留下其行动的痕迹。该字符串最终作为对象文件中的一种注释。链接器将删除它。

        .section        .note.GNU-stack,"",@progbits

GCC写道代码可以容纳不可执行堆栈的特殊部分。这是正常情况。某些特殊用途(非标准C)需要可执行堆栈。在现代处理器上,内核可以创建一个不可执行的堆栈(如果有人试图将代码作为代码执行堆栈中的某些数据,则触发异常的堆栈);这被一些人视为“安全功能”,因为将代码放在堆栈上是利用缓冲区溢出的常用方法。在本节中,可执行文件将被标记为“与非可执行堆栈兼容”,内核将很乐意提供这些内容。

答案 1 :(得分:13)

以下是@Thomas Pornin答案的补充。

  • .LC0局部常量,例如字符串文字。
  • .LFB0本地功能开始,
  • .LFE0本地功能结束,

这些标签的后缀是一个数字,从0开始。

这是gcc汇编程序约定。

答案 2 :(得分:3)

    leal    4(%esp), %ecx
    andl    $-16, %esp
    pushl   -4(%ecx)
    pushl   %ebp
    movl    %esp, %ebp
    pushl   %ecx
    subl    $20, %esp

这些指令在你的c程序中没有比较,它们总是在每个函数的开头执行(但它取决于编译器/平台)

    movl    $.LC0, (%esp)
    call    printf

此块对应于您的printf()调用。第一条指令放在堆栈上,它的参数(指向“hello world”)然后调用函数。

    addl    $20, %esp
    popl    %ecx
    popl    %ebp
    leal    -4(%ecx), %esp
    ret

这些指令与第一个块相反,它们是某种堆栈操作的东西。总是执行