如果我运行程序,就像
一样#include <stdio.h>
int main(int argc, char *argv[], char *env[]) {
printf("My references are at %p, %p, %p\n", &argc, &argv, &env);
}
我们可以看到这些区域实际上在堆栈中。 但还有什么呢?如果我们在Linux 3.5.3中运行所有值的循环(例如,直到segfault),我们可以看到一些奇怪的数字,以及由一堆零分隔的两个区域,可能是为了防止覆盖环境变量意外。
无论如何,在第一个区域必须有很多数字,例如每个函数调用的所有帧。
我们怎样才能区分每个帧的结尾,参数在哪里,如果编译器添加了一个canary,返回地址,CPU状态等等?
答案 0 :(得分:5)
如果不了解叠加层,您只能看到位或数字。虽然有些地区受机器细节限制,但大量细节都非常标准。
如果你没有在嵌套例程之外移动太远,你可能正在查看the call stack部分内存。对于一些通常被认为是“不安全”的C,您可以编写有趣的函数来访问上面几个“调用”的函数变量,即使这些变量没有“传递”到源代码中编写的函数。
调用堆栈是一个很好的起点,因为第三方库必须可以被尚未编写的程序调用。因此,它是相当标准化的。
步进到进程内存边界之外将为您提供可怕的Segmentation违规,因为内存防护会检测到进程访问未授权内存的尝试。在具有内存分段功能的系统上,Malloc做的只是“只是”返回一个指针,它还“标记”该进程可访问的内存,并检查所有内存访问,而不会违反进程分配。
如果你继续遵循这条路径,迟早会对内核或对象格式产生兴趣。在源代码可用的Linux上,研究如何完成工作的方法要容易得多。拥有源代码允许您不通过查看其二进制文件来对数据结构进行反向工程。在开始时,困难的部分将学习如何找到正确的标题。稍后它将学习如何四处寻找并可能改变在非修补条件下你可能不应该改变的东西。
PS。您可能会将此内存视为“堆栈”,但过了一段时间,您会发现它实际上只是一块可访问内存的大块,其中一部分被视为堆栈...
答案 1 :(得分:4)
堆栈的内容基本上是:
操作系统传递给程序的是什么?典型的* nix将传递环境,程序的参数,可能是一些辅助信息,以及指向它们的指针传递给main()
。
在Linux中,你会看到:
argv[0]
)auxv
数组,用于将信息从内核传递到程序argc
然后,下面是堆栈帧,其中包含:
你怎么知道每个堆栈框架中哪个是哪个?编译器知道,所以它只是适当地处理它在堆栈帧中的位置。如果可用,调试器可以以调试信息的形式为每个函数使用注释。否则,如果存在帧指针,则可以识别与其相关的内容:局部变量位于帧指针下方,参数位于堆栈指针上方。否则,你必须使用启发式,看起来像代码地址的东西可能是代码地址,但有时这会导致错误和恼人的堆栈跟踪。
答案 2 :(得分:3)
堆栈的内容将根据架构ABI,编译器以及可能的各种编译器设置和选项而有所不同。
一个好的起点是已发布的目标体系结构的ABI,然后检查您的特定编译器是否符合该标准。最终,您可以分析编译器的汇编器输出或观察调试器中的指令级操作。
还要记住编译器不需要初始化堆栈,当它完成它时肯定不会“清除它”,因此当它被分配给进程或线程时,它可能包含任何值 - 即使在上电,SDRAM例如不包含任何特定或可预测的值,如果物理RAM地址以前已被其他进程使用,自同一进程启动或甚至更早的被调用函数,内容将具有任何剩余的进程在里面。所以只看原始堆栈并没有告诉你多少。
通常,通用堆栈帧可能包含控件将在函数返回时跳转到的地址,传递的所有参数的值以及函数中所有自动局部变量的值。但是,ARM ABI例如将前四个参数传递给寄存器R0到R3中的函数,并保存LR寄存器中 leaf 函数的返回值,因此在所有情况下都不是那么简单作为我建议的“典型”实施。
答案 3 :(得分:2)
细节非常依赖于您的环境。操作系统通常定义ABI,但实际上只对系统调用强制执行。
每种语言(以及每个编译器,即使它们编译相同的语言)实际上可能会做一些不同的事情。
然而,存在某种系统范围的约定,至少在与动态加载的库的接口意义上。
然而,细节差异很大。
一个非常简单的&#34;引物&#34;可能是http://kernelnewbies.org/ABI
您可以查看非常详细和完整的规范,以了解复杂程度以及定义ABI所涉及的详细信息,这是系统V应用程序二进制接口AMD64架构处理器补充程序&#34; http://www.x86-64.org/documentation/abi.pdf