Question

我有一个带有两个64位整数成员的struct X和一个构造函数：

struct X
{
    X(uint64_t a, uint64_t b)
    {
        a_ = a; b_ = b;
    }

    uint64_t a_, b_;
};

当我查看编译器输出（在64位Linux上为x86-64 gcc 8.3和x86-64 clang 8.0.0）时，没有启用任何优化，我看到了以下针对构造函数的代码。

x86-64 gcc 8.3：

X::X(unsigned long, unsigned long):
    push    rbp
    mov     rbp, rsp
    mov     QWORD PTR [rbp-8], rdi
    mov     QWORD PTR [rbp-16], rsi
    mov     QWORD PTR [rbp-24], rdx
    mov     rax, QWORD PTR [rbp-8]
    mov     QWORD PTR [rax], 0
    mov     rax, QWORD PTR [rbp-8]
    mov     QWORD PTR [rax+8], 0
    mov     rax, QWORD PTR [rbp-8]
    mov     rdx, QWORD PTR [rbp-16]
    mov     QWORD PTR [rax+8], rdx
    mov     rax, QWORD PTR [rbp-8]
    mov     rdx, QWORD PTR [rbp-24]
    mov     QWORD PTR [rax], rdx
    nop
    pop     rbp
    ret

x86-64 clang 8.0.0：

X::X(unsigned long, unsigned long):
    push    rbp
    mov     rbp, rsp
    mov     qword ptr [rbp - 8], rdi
    mov     qword ptr [rbp - 16], rsi
    mov     qword ptr [rbp - 24], rdx
    mov     rdx, qword ptr [rbp - 8]
    mov     qword ptr [rdx], 0
    mov     qword ptr [rdx + 8], 0
    mov     rsi, qword ptr [rbp - 16]
    mov     qword ptr [rdx + 8], rsi
    mov     rsi, qword ptr [rbp - 24]
    mov     qword ptr [rdx], rsi
    pop     rbp
    ret

有人知道为什么输出如此复杂吗？即使没有启用优化，我也希望有两个简单的“ mov”语句。

Answer 1

未经优化的代码始终将所有C ++变量（包括函数args）存储在语句so that the values are available for the debugger to read and even modify之间的内存位置中。（并且因为它没有花时间进行寄存器分配。）这包括在函数的第一个C ++语句之前将寄存器args存储到内存中。

这是gcc -masm=intel中的Intel语法程序集，因此它使用的是目标，源顺序。（我们可以根据使用PTR，方括号和寄存器名称中缺少%来判断。）

前3个存储是根据x86-64 System V ABI的调用约定在寄存器RDI，RSI和RDX中传递的函数参数(this, a, b)。

mov     QWORD PTR [rbp-8], rdi        # this
mov     QWORD PTR [rbp-16], rsi       # a
mov     QWORD PTR [rbp-24], rdx       # b

现在它正在将this加载到rax并将零写入a_和b_，因为您没有使用正确的构造函数初始化。或者可能是使用未在此处显示的某些代码或奇怪的编译器选项将初始化添加为零。

mov     rax, QWORD PTR [rbp-8]
mov     QWORD PTR [rax], 0           # this->a_ = 0
mov     rax, QWORD PTR [rbp-8]
mov     QWORD PTR [rax+8], 0         # this->b_ = 0

然后将this再次加载到rax中，再将a加载到rdx中，然后将this->a_也称为rdx写入a 。再次与b相同。

请稍等，实际上首先必须先写入b_，然后再写入a_，因为需要结构来匹配声明和存储顺序。因此[rax+8]必须是b_，而不是a_。

mov     rax, QWORD PTR [rbp-8]
mov     rdx, QWORD PTR [rbp-16]        # reload a
mov     QWORD PTR [rax+8], rdx         # this->b_ = a
mov     rax, QWORD PTR [rbp-8]
mov     rdx, QWORD PTR [rbp-24]        # reload b
mov     QWORD PTR [rax], rdx           # this->a_ = b

因此您的asm与问题中的C ++源不匹配。

Answer 2

会发生什么，为什么？

如果不启用优化功能，编译器会将所有变量存储在堆栈中，而编译器会返回堆栈中的所有值。这样做的原因是，它使调试器可以更轻松地跟踪程序中正在发生的事情：他们可以观察程序的堆栈。

此外，每个函数都必须在输入函数时更新堆栈指针，并在退出函数时重置堆栈指针。这也有利于调试器：调试器始终可以准确告诉您何时输入函数或退出函数。

带有-O0的代码：

X::X(unsigned long, unsigned long):
    push    rbp        // Push the frame pointer to the stack
    mov     rbp, rsp   // Copy the frame pointer to the rsb register
    // Create the object (on the stack)
    mov     QWORD PTR [rbp-8], rdi  
    mov     QWORD PTR [rbp-16], rsi
    mov     QWORD PTR [rbp-24], rdx
    mov     rax, QWORD PTR [rbp-8]
    mov     rdx, QWORD PTR [rbp-16]
    mov     QWORD PTR [rax], rdx
    mov     rax, QWORD PTR [rbp-8]
    mov     rdx, QWORD PTR [rbp-24]
    mov     QWORD PTR [rax+8], rdx
    nop     // IDEK why it does this
    // Pop the frame pointer
    pop     rbp
    ret

带有-O1的代码：

X::X(unsigned long, unsigned long):
    mov     rax, rdi
    mov     rdx, rsi
    ret

这有关系吗？

种类。没有优化的代码会慢很多，特别是因为编译器必须执行此类操作。但是几乎没有理由不启用优化。

如何调试优化的代码

gcc和clang都具有-Og选项：该选项打开不要干扰调试的所有优化。如果代码的调试版本运行缓慢，请尝试使用-Og进行编译。

带有-Og的代码：

X::X(unsigned long, unsigned long):
    mov     rax, rdi
    mov     rdx, rsi
    ret

资源

有关-Og和其他使代码易于调试的选项的更多信息：https://gcc.gnu.org/onlinedocs/gcc/Debugging-Options.html

有关优化和优化选项的更多信息：https://gcc.gnu.org/onlinedocs/gcc/Optimize-Options.html#Optimize-Options

Answer 3

正如其他人所评论的那样，编译器没有义务在您不要求优化代码的情况下对其进行优化，但是许多效率低下的原因是：

编译器在函数进入时将传入寄存器的参数溢出到堆栈上的保存区域（然后在堆栈中使用副本）
Intel没有内存到内存的MOV指令

这两个因素结合在一起，可以为您提供在反汇编中看到的代码（尽管在这里clang显然比gcc做得更好）。

编译器会将这些寄存器溢出到堆栈中，以使调试更加容易-因为它们在堆栈中，因此传递给函数的参数在整个函数中仍然可用，这在调试时非常有用。此外，当您意识到它们的值实际上应该是什么并且想要继续调试会话时，您可以玩一些技巧，例如在继续执行之前在断点处为上述参数修补新值。

我不确定为什么两个编译器都将a_和b_归零后才在反汇编中分配给它们。我没有看到这个over at Godbolt。

简单构造函数的复杂编译器输出

3 个答案:

会发生什么，为什么？

这有关系吗？

如何调试优化的代码

资源