Question

我有以下C代码：

int main()
{
    char s[10];

    scanf("%s", s);
}

编辑：为上层C程序生成的程序集如下：

push   %rbp
mov    %rsp,%rbp
sub    $0x10,%rsp
lea    -0x10(%rbp),%rax
mov    %rax,%rsi
mov    $0x4005e4,%edi
mov    $0x0,%eax
callq  400420 <__isoc99_scanf@plt>
leaveq
retq

如果用户输入的数量超过了数组的大小，则会导致覆盖其他堆栈值。查看生成的程序集，我发现gcc将堆栈指针降低16个字节而不是10个（字对齐）。因此，如果我输入超过16个字节的堆栈应该损坏，并且在返回main时它可能只是段错误。

有趣的是这种行为确实发生了但如果我输入了很多字符就会发生这种情况。任何原因导致17个字符没有失败？

Answer 1

实际行为围绕如何在堆栈上分配内存的细节（这取决于实现，导致未定义的行为）。假设您输入（调用）代码时，此时堆栈偏移量为0，RSP指向的是返回地址。

如果您快速查看汇编程序，可能会突然发现：

sub    $0x10,%rsp

这为您的本地变量保留了空间，您期待这一点。很容易认为这16个字节是我们保留的唯一堆栈空间。如果我们过去，我们将覆盖返回值并崩溃进程（或至少是线程）。

因为很容易错过第一条指令：

push   %rbp

将基指针保存为调用约定的一部分（这样可以跟踪调用堆栈），并占用额外的8个字节（对于64位架构，ebp在32位上只有4个字节）。因此，在开始覆盖返回地址之前，您有24个字节。请记住，如果输入24个字符，则终止空值（'\ 0'）将被存储为第25个字符，这就是将损坏返回地址的字符。

虽然存储在堆栈中的基指针也被覆盖，但之后main中没有使用它。但请注意，调用者将被搞砸，因为：

leaveq

将RSP设置为RBP，然后设置为POP RBP。因此，如果调用者在调用返回后引用局部变量，则可能会出现问题。如果调用者不同（如果您使用不同的运行时），写入第17个字符可能是一个问题（可能在调用者中导致SEGFAULT）。

Answer 2

如果覆盖堆栈，该程序将采取行动。特定的编译器将以自己内部定义的方式格式化堆栈。

避免这种情况的方法是使用以将输入字符数限制为缓冲区大小的方式读取的内容。

一种方法是将长度添加到"%9s"格式中，为字符串结尾留出空间。

Answer 3

首先，代码将获得一个段错误，不是为了覆盖缓冲区的末尾，而是为了访问系统中不存在的内存[或者尝试写入只读的内存，但是可能在这种情况下]。所以这不会发生，直到你的代码从main返回 - 除非字符串太长，它超过堆栈上可用的最高地址 - 这很可能是几百个字节，如果不是更多。 [当然，在你点击输入之前根本没有输入 - 直到那一点，输入只是保存在stdin的缓冲区中

其次，它被称为“未定义行为”（简称UB），意味着它没有定义发生了什么。所以，你不能指望任何特定的行为是特定的 - 它可能与你期望的不同。 UB是不可预测的，并且在某些情况下似乎可以完美地工作[因为你刚刚覆盖的，或者“被滥用”实际上并没有以某种方式使用，这种方式足以导致崩溃 - 但发票发送给客户现在有一个非常巨大的美元价值......;）

腐败的主要功能堆栈

3 个答案: