我有一个带有两个64位整数成员的struct X和一个构造函数:
struct X
{
X(uint64_t a, uint64_t b)
{
a_ = a; b_ = b;
}
uint64_t a_, b_;
};
当我查看编译器输出(在64位Linux上为x86-64 gcc 8.3和x86-64 clang 8.0.0)时,没有启用任何优化,我看到了以下针对构造函数的代码。
x86-64 gcc 8.3:
X::X(unsigned long, unsigned long):
push rbp
mov rbp, rsp
mov QWORD PTR [rbp-8], rdi
mov QWORD PTR [rbp-16], rsi
mov QWORD PTR [rbp-24], rdx
mov rax, QWORD PTR [rbp-8]
mov QWORD PTR [rax], 0
mov rax, QWORD PTR [rbp-8]
mov QWORD PTR [rax+8], 0
mov rax, QWORD PTR [rbp-8]
mov rdx, QWORD PTR [rbp-16]
mov QWORD PTR [rax+8], rdx
mov rax, QWORD PTR [rbp-8]
mov rdx, QWORD PTR [rbp-24]
mov QWORD PTR [rax], rdx
nop
pop rbp
ret
x86-64 clang 8.0.0:
X::X(unsigned long, unsigned long):
push rbp
mov rbp, rsp
mov qword ptr [rbp - 8], rdi
mov qword ptr [rbp - 16], rsi
mov qword ptr [rbp - 24], rdx
mov rdx, qword ptr [rbp - 8]
mov qword ptr [rdx], 0
mov qword ptr [rdx + 8], 0
mov rsi, qword ptr [rbp - 16]
mov qword ptr [rdx + 8], rsi
mov rsi, qword ptr [rbp - 24]
mov qword ptr [rdx], rsi
pop rbp
ret
有人知道为什么输出如此复杂吗?即使没有启用优化,我也希望有两个简单的“ mov”语句。
答案 0 :(得分:6)
未经优化的代码始终将所有C ++变量(包括函数args)存储在语句so that the values are available for the debugger to read and even modify之间的内存位置中。 (并且因为它没有花时间进行寄存器分配。)这包括在函数的第一个C ++语句之前将寄存器args存储到内存中。
这是gcc -masm=intel
中的Intel语法程序集,因此它使用的是目标,源顺序。 (我们可以根据使用PTR,方括号和寄存器名称中缺少%
来判断。)
前3个存储是根据x86-64 System V ABI的调用约定在寄存器RDI,RSI和RDX中传递的函数参数(this, a, b)
。
mov QWORD PTR [rbp-8], rdi # this
mov QWORD PTR [rbp-16], rsi # a
mov QWORD PTR [rbp-24], rdx # b
现在它正在将this
加载到rax
并将零写入a_
和b_
,因为您没有使用正确的构造函数初始化。或者可能是使用未在此处显示的某些代码或奇怪的编译器选项将初始化添加为零。
mov rax, QWORD PTR [rbp-8]
mov QWORD PTR [rax], 0 # this->a_ = 0
mov rax, QWORD PTR [rbp-8]
mov QWORD PTR [rax+8], 0 # this->b_ = 0
然后将this
再次加载到rax
中,再将a
加载到rdx
中,然后将this->a_
也称为rdx
写入a
。再次与b
相同。
请稍等,实际上首先必须先写入b_
,然后再写入a_
,因为需要结构来匹配声明和存储顺序。因此[rax+8]
必须是b_
,而不是a_
。
mov rax, QWORD PTR [rbp-8]
mov rdx, QWORD PTR [rbp-16] # reload a
mov QWORD PTR [rax+8], rdx # this->b_ = a
mov rax, QWORD PTR [rbp-8]
mov rdx, QWORD PTR [rbp-24] # reload b
mov QWORD PTR [rax], rdx # this->a_ = b
因此您的asm与问题中的C ++源不匹配。
答案 1 :(得分:2)
如果不启用优化功能,编译器会将所有变量存储在堆栈中,而编译器会返回堆栈中的所有值。这样做的原因是,它使调试器可以更轻松地跟踪程序中正在发生的事情:他们可以观察程序的堆栈。
此外,每个函数都必须在输入函数时更新堆栈指针,并在退出函数时重置堆栈指针。这也有利于调试器:调试器始终可以准确告诉您何时输入函数或退出函数。
带有-O0
的代码:
X::X(unsigned long, unsigned long):
push rbp // Push the frame pointer to the stack
mov rbp, rsp // Copy the frame pointer to the rsb register
// Create the object (on the stack)
mov QWORD PTR [rbp-8], rdi
mov QWORD PTR [rbp-16], rsi
mov QWORD PTR [rbp-24], rdx
mov rax, QWORD PTR [rbp-8]
mov rdx, QWORD PTR [rbp-16]
mov QWORD PTR [rax], rdx
mov rax, QWORD PTR [rbp-8]
mov rdx, QWORD PTR [rbp-24]
mov QWORD PTR [rax+8], rdx
nop // IDEK why it does this
// Pop the frame pointer
pop rbp
ret
带有-O1
的代码:
X::X(unsigned long, unsigned long):
mov rax, rdi
mov rdx, rsi
ret
种类。没有优化的代码会慢很多,特别是因为编译器必须执行此类操作。但是几乎没有理由不启用优化。
gcc和clang都具有-Og
选项:该选项打开不要干扰调试的所有优化。如果代码的调试版本运行缓慢,请尝试使用-Og
进行编译。
带有-Og
的代码:
X::X(unsigned long, unsigned long):
mov rax, rdi
mov rdx, rsi
ret
有关-Og
和其他使代码易于调试的选项的更多信息:https://gcc.gnu.org/onlinedocs/gcc/Debugging-Options.html
有关优化和优化选项的更多信息:https://gcc.gnu.org/onlinedocs/gcc/Optimize-Options.html#Optimize-Options
答案 2 :(得分:0)
正如其他人所评论的那样,编译器没有义务在您不要求优化代码的情况下对其进行优化,但是许多效率低下的原因是:
这两个因素结合在一起,可以为您提供在反汇编中看到的代码(尽管在这里clang显然比gcc做得更好)。
编译器会将这些寄存器溢出到堆栈中,以使调试更加容易-因为它们在堆栈中,因此传递给函数的参数在整个函数中仍然可用,这在调试时非常有用。此外,当您意识到它们的值实际上应该是什么并且想要继续调试会话时,您可以玩一些技巧,例如在继续执行之前在断点处为上述参数修补新值。
我不确定为什么两个编译器都将a_
和b_
归零后才在反汇编中分配给它们。我没有看到这个over at Godbolt。