使用memcpy进行内联线程调度

时间:2016-06-09 17:10:20

标签: c inline interpreter mmap memcpy

我正在测试一种称为inline threading的解释器调度技术,如果没有segfaulting,我似乎无法分支到可执行内存中。我正在使用GCC的labels as values扩展来确定每个操作码范围的开始和结束。

test.c的:

#include <string.h>
#include <unistd.h>
#include <sys/mman.h>

int main (int argc, char** argv) {

  int i = 0;

  if (argc > 0x10) {
    // prevent optimization 
    inc_start: i++; inc_end:;
    ret_start: goto end; ret_end:;
  }

  void* m = mmap(
    0,  
    getpagesize(),
    PROT_WRITE | PROT_EXEC,
    MAP_ANONYMOUS | MAP_PRIVATE,
    -1, 
    0); 

  if (!m) {
    return -1; 
  }

  {
    char* x = m;
    memcpy(x, &&inc_start, &&inc_end - &&inc_start); x += &&inc_end - &&inc_start;
    memcpy(x, &&inc_start, &&inc_end - &&inc_start); x += &&inc_end - &&inc_start;
    memcpy(x, &&ret_start, &&ret_end - &&ret_start); x += &&ret_end - &&ret_start;
  }

  goto *m; 

  end:
  return i;
}

编译并运行:

gcc test.c -O0 && ./a.out; echo $?

我期待主要回归2,而是:

Segmentation fault
139

我正在使用64位Linux机器上的gcc 4.7.2进行编译,并且我确信没有任何优化。有关如何使其工作的任何提示?

1 个答案:

答案 0 :(得分:1)

使用GCC,我pinned a variable to a callee saved register用于x86_64和aarch64 in以消除相对寻址和相对跳转问题。我在检查生成的组件后重新构建了标签,因为引入了不希望的跳跃。我已经用gcc版本4.8.4编译了它,目标是x86_64-linux-gnu和gcc版本6.1.0,目标是aarch64-linux-android,两者都产生了2的预期结果。

// gcc test.c -O3 && ./a.out; echo $?
#include <string.h>
#include <unistd.h>
#include <sys/mman.h>

#if defined(__amd64__) || defined(__x86_64__) 
register long i asm ("r15");
#elif defined(__arch64__)
register long i asm ("x16");
#else
#error Unsupported architecture. Supported: x86_64, aarch64
#endif
long main (int argc, char** argv) {
  i = 0;

  void* m = mmap(0,  getpagesize(),
                 PROT_WRITE | PROT_EXEC,
                 MAP_ANONYMOUS | MAP_PRIVATE,
                 -1, 0);

  if (!m) {
    return -1;
  }

  {
    char* x = m;
    memcpy(x, &&L00, &&L01 - &&L00); x += &&L01 - &&L00; // inc
    memcpy(x, &&L00, &&L01 - &&L00); x += &&L01 - &&L00; // inc
    memcpy(x, &&L01, &&L02 - &&L01); x += &&L02 - &&L01; // ret
  }

  goto *m;

  L00: i++;      // inc
  L01: return i; // ret
  L02:;

  return -2;
}

编译并运行:

gcc test.c -O3 && ./a.out; echo $?
2

我将继续搜索一个不涉及将变量显式固定到寄存器的解决方案。