易失/修改的返回地址

时间:2016-11-21 12:01:37

标签: c gcc x86-64 volatile jit

考虑一个C函数(带有外部链接),如下所示:

void f(void **p)
{
  /* do something with *p */
}

现在假设f的调用方式是p指向堆栈上f的返回地址,如下面的代码所示(假设System V AMD64) ABI):

leaq -8(%rsp), %rdi
callq f

可能发生的是f的代码通过为* p赋值来修改堆栈上的返回地址。因此,编译器必须将堆栈上的返回地址视为易失性值。在我的情况下,如何告诉编译器gcc,返回地址是volatile?

否则,编译器至少在原则上可以为f生成以下代码:

pushq %rbp
movq 8(%rsp), %r10
pushq %r10
## do something with (%rdi)
popq %r10
popq %rbp
addq 8,%rsp
jmpq *%r10

不可否认,编译器不太可能生成这样的代码,但似乎没有任何其他函数属性也不会被禁止。如果在函数中间修改堆栈上的返回地址,则此代码不会注意到,因为原始返回地址已在函数开头被检索。

PS:正如Peter Cordes所建议的,我应该更好地解释我的问题的目的:它是关于使用移动垃圾收集器收集动态生成的机器代码的垃圾:函数f代表垃圾收集器。 f的被调用者可能是一个函数,其代码在f运行时被移动,所以我想出让f知道返回地址以便{{1}可以根据返回地址指向的内存区域是否被移动来修改它。

1 个答案:

答案 0 :(得分:2)

在AMD64 / x86-64上使用SysV ABI(Linux,FreeBSD,Solaris,Mac OS X / macOS),只需要一个包含实际垃圾收集器功能的简单汇编函数。

以下f.s定义void f(void *),并使用添加的第二个参数指向返回地址来调用真实的GC real_f(void *, void **)

    .file       "f.s"
    .text

    .p2align    4,,15
    .globl      f
    .type       f, @function

f:
    movq        %rsp, %rsi
    call        real_f
    ret

    .size       f, .-f

如果real_f()已有两个其他参数,请使用%rdx(第三个)而不是%rsi。如果是三到五,请分别使用%rcx%r8%r9。 AMD64 / x86-64上的SysV ABI仅在寄存器中支持最多六个非浮点参数。

让我们用一个小example.c来测试上面的内容:

#include <stdlib.h>
#include <stdio.h>

extern void f(void *);

void real_f(void *arg, void **retval)
{
    printf("real_f(): Returning to %p instead of %p.\n", arg, *retval);
    *retval = arg;
}

int main(void)
{
    printf("Function and label addresses:\n");
    printf("%p f()\n", f);
    printf("%p real_f()\n", real_f);
    printf("%p one_call:\n", &&one_call);
    printf("%p one_fail:\n", &&one_fail);
    printf("%p one_skip:\n", &&one_skip);
    printf("\n");

    printf("f(one_skip):\n");
    fflush(stdout);

one_call:
    f(&&one_skip);

one_fail:
    printf("At one_fail.\n");
    fflush(stdout);

one_skip:
    printf("At one_skip.\n");
    fflush(stdout);

    return EXIT_SUCCESS;
}

请注意,上面的内容依赖于GCC行为(&&提供标签的地址)以及AMD64 / x86-64架构上的GCC行为(对象和函数指针是可互换的),以及C编译器没有对main()中的代码进行任何无限的优化。

(如果real_f()被优化并不重要;只是我懒得在main()中找出更好的例子。例如,在可执行数据中创建一个小函数调用f()的段,real_f()移动该数据段,并相应地调整返回地址。这符合OP的情况,并且是我能想到的这种操作的唯一实际用例相反,我只是破解了一个粗略的例子,可能会或可能不适用于其他人。)

另外,我们可能希望将f()声明为具有两个参数(它们将在%rdi%rsi中传递),第二个参数无关紧要,以确保编译器不希望%rsi保持不变。 (如果我没记错的话,SysV ABI让我们破坏它,但我可能记得错了。)

在这台特定的机器上,用

编译上面的内容
gcc -Wall -O0 f.s example.c -o example

运行它

./example

产生

Function and label addresses:
0x400650 f()
0x400659 real_f()
0x400729 one_call:
0x400733 one_fail:
0x40074c one_skip:

f(one_skip):
real_f(): Returning to 0x40074c instead of 0x400733.
At one_skip.

请注意,如果您告诉GCC优化代码(例如,-O2),它将对main()中的代码进行假设,完全允许C标准执行,但可能导致所有三个标签具有完全相同的地址。这发生在我的特定机器和GCC-5.4.0上,当然会导致无限循环。它根本没有反映f()real_f()的实施情况,只是我main()中的例子非常差。我很懒。