编译的C ++类是什么样的?

时间:2010-07-09 09:09:04

标签: c++ compiler-construction linker elf

有了汇编指令和C程序的一些背景知识,我可以想象一下编译函数的样子,但有趣的是我从来没有仔细考虑过编译的C ++类是什么样的。

bash$ cat class.cpp
#include<iostream>
class Base
{
  int i;
  float f;
};

bash$ g++ -c class.cpp

我跑了:

bash$objdump -d class.o
bash$readelf -a class.o

但我得到的东西很难理解。

有人可以解释一下或提出一些好的起点。

6 个答案:

答案 0 :(得分:20)

这些类(或多或少)构造为常规结构。这些方法(或多或少......)被转换成第一个参数为“this”的函数。对类变量的引用是作为“this”的偏移量完成的。

就继承而言,我们引用C ++ FAQ LITE,它在这里被镜像http://www.parashift.com/c++-faq-lite/virtual-functions.html#faq-20.4。本章介绍了如何在真实硬件中调用虚函数(编译在机器代码中做了什么。


让我们举个例子吧。假设类Base有5个虚函数:virt0()virt4()

 // Your original C++ source code
 class Base {
 public:
   virtual arbitrary_return_type virt0(...arbitrary params...);
   virtual arbitrary_return_type virt1(...arbitrary params...);
   virtual arbitrary_return_type virt2(...arbitrary params...);
   virtual arbitrary_return_type virt3(...arbitrary params...);
   virtual arbitrary_return_type virt4(...arbitrary params...);
   ...
 };

步骤#1 :编译器构建一个包含5个函数指针的静态表,将该表隐藏在某个地方的静态内存中。许多(并非所有)编译器在编译定义Base的第一个非内联虚函数的.cpp时定义此表。我们将该表称为v表;让我们假装它的技术​​名称是Base::__vtable。如果函数指针适合目标硬件平台上的一个机器字,Base::__vtable将最终消耗5个隐藏的内存字。每个实例不是5个,而不是每个功能5个;它可能看起来像下面的伪代码:

 // Pseudo-code (not C++, not C) for a static table defined within file Base.cpp

 // Pretend FunctionPtr is a generic pointer to a generic member function
 // (Remember: this is pseudo-code, not C++ code)
 FunctionPtr Base::__vtable[5] = {
   &Base::virt0, &Base::virt1, &Base::virt2, &Base::virt3, &Base::virt4
 };

步骤#2 :编译器为类Base的每个对象添加一个隐藏指针(通常也是一个机器字)。这称为v指针。将此隐藏指针视为隐藏数据成员,就像编译器将您的类重写为以下内容一样:

 // Your original C++ source code
 class Base {
 public:
   ...
   FunctionPtr* __vptr;  ← supplied by the compiler, hidden from the programmer
   ...
 };

步骤#3 :编译器在每个构造函数中初始化this->__vptr。我们的想法是让每个对象的v指针指向其类的v-table,就像它在每个构造函数的init-list中添加以下指令一样:

 Base::Base(...arbitrary params...)
   : __vptr(&Base::__vtable[0])  ← supplied by the compiler, hidden from the programmer
   ...
 {
   ...
 }

现在让我们找出一个派生类。假设您的C ++代码定义了继承自Base类的类Der。编译器重复步骤#1和#3(但不是#2)。在步骤#1中,编译器创建一个隐藏的v表,保留与Base::__vtable中相同的函数指针,但替换那些与覆盖相对应的插槽。例如,如果Der覆盖virt0()virt2()并按原样继承其他,则Der的v表可能看起来像这样(假装Der不添加任何新虚拟):

 // Pseudo-code (not C++, not C) for a static table defined within file Der.cpp

 // Pretend FunctionPtr is a generic pointer to a generic member function
 // (Remember: this is pseudo-code, not C++ code)
 FunctionPtr Der::__vtable[5] = {
   &Der::virt0, &Der::virt1, &Der::virt2, &Base::virt3, &Base::virt4
 };                                        ^^^^----------^^^^---inherited as-is

在步骤#3中,编译器在Der的每个构造函数的开头添加一个类似的指针赋值。我们的想法是更改每个Der对象的v指针,使其指向其类的v-table。 (这不是第二个v指针;它是在基类Base中定义的相同的v指针;记住,编译器不会在Der类中重复步骤#2。)

最后,让我们看看编译器如何实现对虚函数的调用。您的代码可能如下所示:

 // Your original C++ code
 void mycode(Base* p)
 {
   p->virt3();
 }

编译器不知道这是调用Base::virt3()还是Der::virt3(),还是调用另一个尚未存在的派生类的virt3()方法。它只能确定你正在调用virt3(),它恰好是v-table的插槽#3中的函数。它将该调用重写为以下内容:

 // Pseudo-code that the compiler generates from your C++

 void mycode(Base* p)
 {
   p->__vptr[3](p);
 } 

我强烈建议每位C ++开发人员阅读常见问题解答。可能需要几周时间(因为它很难阅读和长篇大论)但它会教你很多关于C ++的知识以及可以用它做些什么。

答案 1 :(得分:2)

确定。编译类没有什么特别之处。编译的类甚至不存在。存在的是具有平坦内存块的对象,并且字段之间可能存在填充?和代码中的独立成员函数,它将指向对象的指针作为第一个参数。

所以类Base的对象应该是

(* base_address):i (* base_address + sizeof(int)):f

可以在字段之间填充吗?但这是特定于硬件的。基于处理器内存模型。

另外......在调试版中,可以在调试符号中捕获类描述。但那是编译器特定的。你应该搜索一个为你的编译器转储调试符号的程序。

答案 2 :(得分:2)

“编译类”是指“编译方法”。

一个方法是一个带有额外参数的普通函数,通常放在一个寄存器中(我相信,对于大多数需要使用__thiscall约定生成COM对象的Windows编译器来说,这至少是真的。)

所以C ++类与一堆普通函数没有太大区别,除了名称修改和构造函数/析构函数中用于设置vtable的一些魔法。

答案 3 :(得分:1)

与读取C对象文件的主要区别在于C ++方法名称为mangled。您可以尝试将选项-C|--demangleobjdump一起使用。

答案 4 :(得分:0)

试试

  

g ++ -S class.cpp

这将为您提供一个汇编文件'class.s'(文本文件),您可以使用文本编辑器读取该文件。 但是,您的代码不会执行任何操作(声明类本身不会生成代码),因此您在汇编文件中没有太多内容。

答案 5 :(得分:0)

类似于C结构和一组带有附加参数的函数,该参数是指向结构的指针。

遵循编译器所做的最简单的方法可能是在没有优化的情况下构建,然后将代码加载到调试器中并使用混合源/汇编程序模式逐步完成。

然而,编译器的重点是你不需要知道这些东西(除非你正在编写编译器)。