Question

我正在尝试学习C ++编译器如何处理引用和指针，以便为下一学期的编译器类做准备。我特别感兴趣的是编译器如何处理C ++中的引用。

标准指定引用是“别名”，但我不确切地知道在编译器级别意味着什么。我有两个理论：

非引用变量在符号表中有一个条目。当创建对该变量的引用时，编译器只是创建另一个词条，它“指向”符号表中的完全相同的条目（而不是非引用变量在内存中的位置）。
当创建对该变量的引用时，编译器会在内存中创建指向该变量位置的指针。解析语言的上下文时会处理对引用的限制（无空值等）。换句话说，对于解除引用的指针，引用是“语法糖”。

就我所知，两种解决方案都会创建一个“别名”。编译器是使用一个而不是另一个？或者它是编译器依赖的吗？

顺便说一句，我知道在机器语言级别，两者都是“指针”（除了整数之外的所有东西都是机器级别的“指针”）。我对生成机器代码之前编译器的作用感兴趣。

PHP uses method #1

this article

Answer 1

我将尝试解释g ++编译器如何实现引用。

    #include <iostream>

    using namespace std;

    int main()
    {
        int i = 10;
        int *ptrToI = &i;
        int &refToI = i;

        cout << "i = " << i << "\n";
        cout << "&i = " << &i << "\n";

        cout << "ptrToI = " << ptrToI << "\n";
        cout << "*ptrToI = " << *ptrToI << "\n";
        cout << "&ptrToI = " << &ptrToI << "\n";

        cout << "refToNum = " << refToI << "\n";
        //cout << "*refToNum = " << *refToI << "\n";
        cout << "&refToNum = " << &refToI << "\n";

        return 0;
    }

此代码的输出就像这样

    i = 10
    &i = 0xbf9e52f8
    ptrToI = 0xbf9e52f8
    *ptrToI = 10
    &ptrToI = 0xbf9e52f4
    refToNum = 10
    &refToNum = 0xbf9e52f8

让我们看一下反汇编（我为此使用了GDB。这里的8,9和10是代码行号）

8           int i = 10;
0x08048698 <main()+18>: movl   $0xa,-0x10(%ebp)

此处$0xa是我们分配给i的10（十进制）。 -0x10(%ebp)此处表示ebp register -16（十进制）的内容。 -0x10(%ebp)指向堆栈上i的地址。

9           int *ptrToI = &i;
0x0804869f <main()+25>: lea    -0x10(%ebp),%eax
0x080486a2 <main()+28>: mov    %eax,-0x14(%ebp)

将i的地址指定给ptrToI。 ptrToI位于地址-0x14(%ebp)的堆栈上，即ebp - 20（十进制）。

10          int &refToI = i;
0x080486a5 <main()+31>: lea    -0x10(%ebp),%eax
0x080486a8 <main()+34>: mov    %eax,-0xc(%ebp)

现在抓住了！比较第9行和第10行的反汇编，您将观察到，-0x14(%ebp)被第10行中的-0xc(%ebp)替换。-0xc(%ebp)是refToNum的地址。它在堆栈上分配。但是，您永远无法从代码中获取此地址，因为您无需知道地址。

因此;引用确实占用了内存。在这种情况下，它是堆栈内存，因为我们已将其分配为局部变量。它占用了多少内存？指针占据了很多。

现在让我们看看我们如何访问引用和指针。为简单起见，我只展示了汇编代码段的一部分

16          cout << "*ptrToI = " << *ptrToI << "\n";
0x08048746 <main()+192>:        mov    -0x14(%ebp),%eax
0x08048749 <main()+195>:        mov    (%eax),%ebx
19          cout << "refToNum = " << refToI << "\n";
0x080487b0 <main()+298>:        mov    -0xc(%ebp),%eax
0x080487b3 <main()+301>:        mov    (%eax),%ebx

现在比较以上两行，你会看到惊人的相似性。 -0xc(%ebp)是refToI的实际地址，您永远无法访问该地址。简单来说，如果您将引用视为普通指针，那么访问引用就像获取引用指向的地址处的值一样。这意味着以下两行代码将为您提供相同的结果

cout << "Value if i = " << *ptrToI << "\n";
cout << " Value if i = " << refToI << "\n";

现在比较一下

15          cout << "ptrToI = " << ptrToI << "\n";
0x08048713 <main()+141>:        mov    -0x14(%ebp),%ebx
21          cout << "&refToNum = " << &refToI << "\n";
0x080487fb <main()+373>:        mov    -0xc(%ebp),%eax

我想你能发现这里发生了什么。如果您要求&refToI，则会返回-0xc(%ebp)地址位置的内容，-0xc(%ebp)位于refToi所在的位置，其内容只是i的地址。

最后一件事，为什么这一行被评论了？

//cout << "*refToNum = " << *refToI << "\n";

因为不允许*refToI，它会给你一个编译时错误。

Answer 2

理解指针和引用与为它们实现代码完全不同。

我建议你学习如何正确使用它们，并专注于编译器理论的核心。没有指针，引用和继承的概念，基本的编译器理论类很难。指针和参考文献留给更高级的课程。

简单地说：尽可能使用引用，必要时使用引用。

编辑1：
编译器可以以他们想要的任何方式实现引用和指针，只要它们的语法和语义根据语言规范运行即可。

一个简单的实现是将引用视为具有附加属性的指针。

内存中的所有内容都有一个位置，即地址。编译器可能必须使用内部指针从存储器加载到寄存器中并将寄存器内容存储到存储器中。因此，要引用内存中的变量，无论是通过指针，引用还是别名，编译器都需要变量的地址。（这不包括处理不同的寄存器变量。）因此，使用指针作为引用或别名可以节省一些编码。

编译器级别的C ++引用和指针

2 个答案: