有了汇编指令和C程序的一些背景知识,我可以想象一下编译函数的样子,但有趣的是我从来没有仔细考虑过编译的C ++类是什么样的。
bash$ cat class.cpp
#include<iostream>
class Base
{
int i;
float f;
};
bash$ g++ -c class.cpp
我跑了:
bash$objdump -d class.o
bash$readelf -a class.o
但我得到的东西很难理解。
有人可以解释一下或提出一些好的起点。
答案 0 :(得分:20)
这些类(或多或少)构造为常规结构。这些方法(或多或少......)被转换成第一个参数为“this”的函数。对类变量的引用是作为“this”的偏移量完成的。
就继承而言,我们引用C ++ FAQ LITE,它在这里被镜像http://www.parashift.com/c++-faq-lite/virtual-functions.html#faq-20.4。本章介绍了如何在真实硬件中调用虚函数(编译在机器代码中做了什么。
让我们举个例子吧。假设类Base有5个虚函数:virt0()
到virt4()
。
// Your original C++ source code
class Base {
public:
virtual arbitrary_return_type virt0(...arbitrary params...);
virtual arbitrary_return_type virt1(...arbitrary params...);
virtual arbitrary_return_type virt2(...arbitrary params...);
virtual arbitrary_return_type virt3(...arbitrary params...);
virtual arbitrary_return_type virt4(...arbitrary params...);
...
};
步骤#1 :编译器构建一个包含5个函数指针的静态表,将该表隐藏在某个地方的静态内存中。许多(并非所有)编译器在编译定义Base的第一个非内联虚函数的.cpp时定义此表。我们将该表称为v表;让我们假装它的技术名称是Base::__vtable
。如果函数指针适合目标硬件平台上的一个机器字,Base::__vtable
将最终消耗5个隐藏的内存字。每个实例不是5个,而不是每个功能5个;它可能看起来像下面的伪代码:
// Pseudo-code (not C++, not C) for a static table defined within file Base.cpp
// Pretend FunctionPtr is a generic pointer to a generic member function
// (Remember: this is pseudo-code, not C++ code)
FunctionPtr Base::__vtable[5] = {
&Base::virt0, &Base::virt1, &Base::virt2, &Base::virt3, &Base::virt4
};
步骤#2 :编译器为类Base的每个对象添加一个隐藏指针(通常也是一个机器字)。这称为v指针。将此隐藏指针视为隐藏数据成员,就像编译器将您的类重写为以下内容一样:
// Your original C++ source code
class Base {
public:
...
FunctionPtr* __vptr; ← supplied by the compiler, hidden from the programmer
...
};
步骤#3 :编译器在每个构造函数中初始化this->__vptr
。我们的想法是让每个对象的v指针指向其类的v-table,就像它在每个构造函数的init-list中添加以下指令一样:
Base::Base(...arbitrary params...)
: __vptr(&Base::__vtable[0]) ← supplied by the compiler, hidden from the programmer
...
{
...
}
现在让我们找出一个派生类。假设您的C ++代码定义了继承自Base类的类Der。编译器重复步骤#1和#3(但不是#2)。在步骤#1中,编译器创建一个隐藏的v表,保留与Base::__vtable
中相同的函数指针,但替换那些与覆盖相对应的插槽。例如,如果Der覆盖virt0()
到virt2()
并按原样继承其他,则Der的v表可能看起来像这样(假装Der不添加任何新虚拟):
// Pseudo-code (not C++, not C) for a static table defined within file Der.cpp
// Pretend FunctionPtr is a generic pointer to a generic member function
// (Remember: this is pseudo-code, not C++ code)
FunctionPtr Der::__vtable[5] = {
&Der::virt0, &Der::virt1, &Der::virt2, &Base::virt3, &Base::virt4
}; ^^^^----------^^^^---inherited as-is
在步骤#3中,编译器在Der的每个构造函数的开头添加一个类似的指针赋值。我们的想法是更改每个Der对象的v指针,使其指向其类的v-table。 (这不是第二个v指针;它是在基类Base中定义的相同的v指针;记住,编译器不会在Der类中重复步骤#2。)
最后,让我们看看编译器如何实现对虚函数的调用。您的代码可能如下所示:
// Your original C++ code
void mycode(Base* p)
{
p->virt3();
}
编译器不知道这是调用Base::virt3()
还是Der::virt3()
,还是调用另一个尚未存在的派生类的virt3()
方法。它只能确定你正在调用virt3()
,它恰好是v-table的插槽#3中的函数。它将该调用重写为以下内容:
// Pseudo-code that the compiler generates from your C++
void mycode(Base* p)
{
p->__vptr[3](p);
}
我强烈建议每位C ++开发人员阅读常见问题解答。可能需要几周时间(因为它很难阅读和长篇大论)但它会教你很多关于C ++的知识以及可以用它做些什么。
答案 1 :(得分:2)
确定。编译类没有什么特别之处。编译的类甚至不存在。存在的是具有平坦内存块的对象,并且字段之间可能存在填充?和代码中的独立成员函数,它将指向对象的指针作为第一个参数。
所以类Base的对象应该是
(* base_address):i (* base_address + sizeof(int)):f
可以在字段之间填充吗?但这是特定于硬件的。基于处理器内存模型。
另外......在调试版中,可以在调试符号中捕获类描述。但那是编译器特定的。你应该搜索一个为你的编译器转储调试符号的程序。
答案 2 :(得分:2)
“编译类”是指“编译方法”。
一个方法是一个带有额外参数的普通函数,通常放在一个寄存器中(我相信,对于大多数需要使用__thiscall约定生成COM对象的Windows编译器来说,这至少是真的。)
所以C ++类与一堆普通函数没有太大区别,除了名称修改和构造函数/析构函数中用于设置vtable的一些魔法。
答案 3 :(得分:1)
与读取C对象文件的主要区别在于C ++方法名称为mangled。您可以尝试将选项-C|--demangle
与objdump
一起使用。
答案 4 :(得分:0)
试试
g ++ -S class.cpp
这将为您提供一个汇编文件'class.s'(文本文件),您可以使用文本编辑器读取该文件。 但是,您的代码不会执行任何操作(声明类本身不会生成代码),因此您在汇编文件中没有太多内容。
答案 5 :(得分:0)
类似于C结构和一组带有附加参数的函数,该参数是指向结构的指针。
遵循编译器所做的最简单的方法可能是在没有优化的情况下构建,然后将代码加载到调试器中并使用混合源/汇编程序模式逐步完成。
然而,编译器的重点是你不需要知道这些东西(除非你正在编写编译器)。