Question

我正在努力提高对C ++实际工作原理的理解。有没有办法看到编译器如何将我的代码降低为更简单的代码？例如，我想看看如何调用所有复制构造函数，如何解析重载函数调用，完成所有模板扩展和实例化等等。现在我正在学习C ++编译器如何通过实验解释我的代码但是，只要看到我的代码降低形式就好了，即使它非常难看。我正在寻找类似于g ++ -E的东西，它显示了预处理器的结果，但是对于C ++。

编辑：我应该补充一点，我不是在寻找一个反汇编程序。 C ++源代码和汇编代码之间存在巨大差距。在这个鸿沟内部是复杂的事情，比如模板元编程和对运算符方法的各种隐式调用（赋值！强制转换！构造函数！...）以及具有非常复杂的分辨率规则的重载函数等等。我正在寻找工具，以帮助我理解C ++编译器如何解释我的代码。现在，我唯一能做的就是尝试一些实验，然后逐步了解编译器正在做什么。我想看看有关正在发生的事情的更多细节。例如，在调试模板元编程问题时，这将有很大帮助。

Answer 1

目前，我认为您最好的选择是 Clang （您可以在Try Out LLVM页面上尝试一些简单的代码）。

使用Clang / LLVM编译C，C ++或Obj-C时，您可能会要求编译器发出中间表示（LLVM IR），而不是完全采用汇编/二进制形式。

LLVM IR是编译器内部使用的完整指定语言：

CLang将C ++代码降低到LLVM IR
LLVM优化IR
LLVM后端（例如x86）从IR

IR是机器特定代码之前的最后一步，因此您不必学习特定的汇编指令，而且您仍然可以非常低级地表示真正发生的事情。

您可以在优化之前和之后获得IR，后者更能代表真实代码，但远离您最初编写的内容。

C程序示例：

#include <stdio.h>
#include <stdlib.h>

static int factorial(int X) {
  if (X == 0) return 1;
  return X*factorial(X-1);
}

int main(int argc, char **argv) {
  printf("%d\n", factorial(atoi(argv[1])));
}

相应的IR：

; ModuleID = '/tmp/webcompile/_10956_0.bc'
target datalayout = "e-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:64:64-f32:32:32-f64:64:64-v64:64:64-v128:128:128-a0:0:64-s0:64:64-f80:128:128-n8:16:32:64"
target triple = "x86_64-unknown-linux-gnu"

@.str = private unnamed_addr constant [4 x i8] c"%d\0A\00"

define i32 @main(i32 %argc, i8** nocapture %argv) nounwind {
; <label>:0
  %1 = getelementptr inbounds i8** %argv, i64 1
  %2 = load i8** %1, align 8, !tbaa !0
  %3 = tail call i64 @strtol(i8* nocapture %2, i8** null, i32 10) nounwind
  %4 = trunc i64 %3 to i32
  %5 = icmp eq i32 %4, 0
  br i1 %5, label %factorial.exit, label %tailrecurse.i

tailrecurse.i:                                    ; preds = %tailrecurse.i, %0
  %indvar.i = phi i32 [ %indvar.next.i, %tailrecurse.i ], [ 0, %0 ]
  %accumulator.tr1.i = phi i32 [ %6, %tailrecurse.i ], [ 1, %0 ]
  %X.tr2.i = sub i32 %4, %indvar.i
  %6 = mul nsw i32 %X.tr2.i, %accumulator.tr1.i
  %indvar.next.i = add i32 %indvar.i, 1
  %exitcond = icmp eq i32 %indvar.next.i, %4
  br i1 %exitcond, label %factorial.exit, label %tailrecurse.i

factorial.exit:                                   ; preds = %tailrecurse.i, %0
  %accumulator.tr.lcssa.i = phi i32 [ 1, %0 ], [ %6, %tailrecurse.i ]
  %7 = tail call i32 (i8*, ...)* @printf(i8* getelementptr inbounds ([4 x i8]* @.str, i64 0, i64 0), i32 %accumulator.tr.lcssa.i) nounwind
  ret i32 0
}

declare i32 @printf(i8* nocapture, ...) nounwind

declare i64 @strtol(i8*, i8** nocapture, i32) nounwind

!0 = metadata !{metadata !"any pointer", metadata !1}
!1 = metadata !{metadata !"omnipotent char", metadata !2}
!2 = metadata !{metadata !"Simple C/C++ TBAA", null}

我个人发现它相对可读（一旦你超越了语言的原始发现，它试图保留变量名，有些，函数名仍然存在）。

Answer 2

第一个C ++编译器是cfront，顾名思义，它是C的前端;从理论上讲，cfront的输出就是你想要看到的。但cfront多年来一直无法使用;它是一种商业产品，而且没有来源。

现代C ++编译器不使用C中介;如果有一个中介，它是一个内部编译器表示，而不是你喜欢看的东西！ g ++的-S选项会吐出*.s个文件：汇编代码，其中包含足够的符号，理论上可以遵循它。

Answer 3

第一个（大约1989年）C ++编译器将C ++编译成C语言。但是很长一段时间都不是这样，很长一段时间，这意味着我知道没有广泛可用的编译器，而不是过去15年那样做的事情。您要做的最好的事情是查看汇编语言输出，这需要一定的知识和分析才能理解。

C ++编译器的汇编级输出通常不称为“降级”。它被称为“编译”。我可以理解你是如何通过这个术语来的。汇编是一种较低级别的语言。但这不是其他人使用的术语，如果你使用它会让人迷惑。

大多数流行的C ++编译器都有一个选项，允许您查看汇编级输出。开源g++编译器具有执行此操作的-S选项。它将创建一个以.s结尾的文件。您可以查看此文件以查看生成的汇编语言。

为了使汇编语言更直接地对应于C ++代码，我建议使用-O0选项进行编译以关闭优化。优化的结果可能导致汇编代码与原始C ++代码几乎没有或没有明显的相似之处。虽然查看该代码可以帮助您了解优化器正在做什么。

另一个问题是程序集输出中的符号（函数和类和事物的名称）将被称为“损坏”。这是因为大多数汇编语言不允许::作为符号名称的一部分，并且因为C ++也可以为不同类型的符号使用相同的名称。编译器将C ++代码中的东西名称转换为在汇编代码中有效的不同名称。

对于g++，可以使用c++filt程序撤消此修改。

c++filt <myprogram.s >myprogram_demangled.s

这将有助于使汇编文件更具可读性。

Answer 4

第一步，您可以预处理它（这是编译器在编译之前实际执行的第一步）

cpp或g++ -E

第二步是解析和翻译它

使用g ++ -S

关于编译过程的link可能会让您感兴趣

Answer 5

您可以使用一个或多个-fdump-tree-标志（complete list）运行g ++（或任何gcc前端），这将转储输出中不同编译器传递的代码的中间表示看起来类似于C的格式。但是，这个输出通常很难阅读，有很多编译器生成的临时变量和其他编译工件。它主要用于调试编译器本身，但是对于简单的示例，您可以通过研究中间表示来推断gcc对C ++代码的作用。

Answer 6

Comeau C++ compiler生成C代码。但是你必须付钱。

Answer 7

您可以使用调试器查看代码流，而不是进行实验。通过这种方式，您可以轻松查看实际映射正在发生的构造函数或重载函数。

如何看待降低的c ++

7 个答案: