从fork()到do_fork()的函数调用

时间:2012-07-18 19:21:24

标签: linux-kernel

在浏览了一些文字和源代码后,我意识到forkvforkclone所有三个都是通过do_fork中的fork.c执行的,具有不同的参数

fork()如何调用do_fork() ..

调用所有函数调用的fork()时?

来自do_fork()的{​​{1}}分步课程是什么?

1 个答案:

答案 0 :(得分:14)

libc fork()和其他系统调用的实现包含调用系统调用的特殊处理器指令。系统调用调用是特定于体系结构的,可能是一个非常复杂的主题。

让我们从“简单”的例子开始,MIPS:

在MIPS上,通过SYSCALL指令调用系统调用。因此,libc的fork()实现最终会在某些寄存器上设置一些参数,在regiter v0中发出系统调用号,并发出syscall指令。

在MIPS上,这会导致SYSCALL_EXCEPTION(例外编号8)。引导时,内核将异常8与arch/mips/kernel/traps.c:trap_init()中的处理例程关联:

set_except_vector(8, handle_sys);

因此当CPU收到异常8因为程序发出了syscall指令时,CPU转换到内核模式,并开始在handle_sys /usr/src/linux/arch/mips/kernel/scall*.S处执行处理程序(那里)是用于不同32/64位内核空间/用户空间组合的几个文件。该例程在系统调用表中查找系统调用号,并跳转到相应的sys_...()函数,在此示例中为sys_fork()

现在,x86更复杂。传统上,Linux使用中断0x80来调用系统调用。这与arch/x86/kernel/traps_*.c:trap_init()中的x86门关联:

set_system_gate(SYSCALL_VECTOR,&system_call);

x86处理器具有多个级别(环)特权(自80286起)。只能通过预定义的门访问(跳转到)下环(=更多权限),这是由内核设置的特殊类型的段描述符。因此,当调用int 0x80时,会产生一个中断,CPU会查找一个名为IDT(中断描述符表)的特殊表,看到它有一个门(x86中的陷阱门,中断门) x86-64),并转换为ring 0,开始执行system_call / ia32_syscall arch/x86/kernel/entry_32.S / arch/x86/ia32/ia32entry.S处理程序(分别为x86 / x86_64)。

但是,自Pentium Pro以来,还有另一种调用系统调用的方法:使用SYSENTER指令(AMD也有自己的SYSCALL指令)。这是一种调用系统调用的更有效方法。此“更新”机制的处理程序设置为arch/x86/vdso/vdso32-setup.c:syscall32_cpu_init()

#ifdef CONFIG_X86_64
[...]
void syscall32_cpu_init(void)
{
    if (use_sysenter < 0)
            use_sysenter = (boot_cpu_data.x86_vendor == X86_VENDOR_INTEL);

    /* Load these always in case some future AMD CPU supports
       SYSENTER from compat mode too. */
    checking_wrmsrl(MSR_IA32_SYSENTER_CS, (u64)__KERNEL_CS);
    checking_wrmsrl(MSR_IA32_SYSENTER_ESP, 0ULL);
    checking_wrmsrl(MSR_IA32_SYSENTER_EIP, (u64)ia32_sysenter_target);

    wrmsrl(MSR_CSTAR, ia32_cstar_target);
}
[...]
#else
[...]
void enable_sep_cpu(void)
{
    int cpu = get_cpu();
    struct tss_struct *tss = &per_cpu(init_tss, cpu);

    if (!boot_cpu_has(X86_FEATURE_SEP)) {
            put_cpu();
            return;
    }

    tss->x86_tss.ss1 = __KERNEL_CS;
    tss->x86_tss.sp1 = sizeof(struct tss_struct) + (unsigned long) tss;
    wrmsr(MSR_IA32_SYSENTER_CS, __KERNEL_CS, 0);
    wrmsr(MSR_IA32_SYSENTER_ESP, tss->x86_tss.sp1, 0);
    wrmsr(MSR_IA32_SYSENTER_EIP, (unsigned long) ia32_sysenter_target, 0);
    put_cpu();
}
[...]
#endif  /* CONFIG_X86_64 */

以上使用机器专用寄存器(MSR)进行设置。处理程序例程为ia32_sysenter_targetia32_cstar_target(最后一个仅适用于x86_64)(在arch/x86/kernel/entry_32.Sarch/x86/ia32/ia32entry.S中)。

选择要使用的系统调用机制

linux内核和glibc有一种机制可以在不同的方式之间进行选择来调用系统调用。

内核为每个进程设置一个虚拟共享库,它被称为VDSO(虚拟动态共享对象),您可以在cat /proc/<pid>/maps的输出中看到它:

$ cat /proc/self/maps
08048000-0804c000 r-xp 00000000 03:04 1553592    /bin/cat
0804c000-0804d000 rw-p 00003000 03:04 1553592    /bin/cat
[...]
b7ee8000-b7ee9000 r-xp b7ee8000 00:00 0          [vdso]
[...]

除其他外,此vdso包含正在使用的CPU的适当系统调用调用序列,例如:

ffffe414 <__kernel_vsyscall>:
ffffe414:       51                      push   %ecx        ; \
ffffe415:       52                      push   %edx        ; > save registers
ffffe416:       55                      push   %ebp        ; /
ffffe417:       89 e5                   mov    %esp,%ebp   ; save stack pointer
ffffe419:       0f 34                   sysenter           ; invoke system call
ffffe41b:       90                      nop
ffffe41c:       90                      nop                ; the kernel will usually
ffffe41d:       90                      nop                ; return to the insn just
ffffe41e:       90                      nop                ; past the jmp, but if the
ffffe41f:       90                      nop                ; system call was interrupted
ffffe420:       90                      nop                ; and needs to be restarted
ffffe421:       90                      nop                ; it will return to this jmp
ffffe422:       eb f3                   jmp    ffffe417 <__kernel_vsyscall+0x3>
ffffe424:       5d                      pop    %ebp        ; \
ffffe425:       5a                      pop    %edx        ; > restore registers
ffffe426:       59                      pop    %ecx        ; /
ffffe427:       c3                      ret                ; return to caller

arch/x86/vdso/vdso32/中有使用int 0x80sysentersyscall的实现,内核会选择合适的实现。

为了让用户空间知道有一个vdso及其所在的位置,内核在辅助向量(AT_SYSINFO中设置AT_SYSINFO_EHDRauxv个条目,main()的第四个参数{1}},在argc, argv, envp之后,用于将一些信息从内核传递到新启动的进程)。 AT_SYSINFO_EHDR指向vdso的ELF头,AT_SYSINFO指向vsyscall实现:

$ LD_SHOW_AUXV=1 id    # tell the dynamic linker ld.so to output auxv values
AT_SYSINFO:      0xb7fd4414
AT_SYSINFO_EHDR: 0xb7fd4000
[...]

glibc使用此信息来查找vsyscall。它将它存储到动态加载器全局_dl_sysinfo中,例如:

glibc-2.16.0/elf/dl-support.c:_dl_aux_init():
ifdef NEED_DL_SYSINFO
  case AT_SYSINFO:
    GL(dl_sysinfo) = av->a_un.a_val;
    break;
#endif
#if defined NEED_DL_SYSINFO || defined NEED_DL_SYSINFO_DSO
  case AT_SYSINFO_EHDR:
    GL(dl_sysinfo_dso) = (void *) av->a_un.a_val;
    break;
#endif

glibc-2.16.0/elf/dl-sysdep.c:_dl_sysdep_start()

glibc-2.16.0/elf/rtld.c:dl_main:
GLRO(dl_sysinfo) = GLRO(dl_sysinfo_dso)->e_entry + l->l_addr;

并且在TCB(线程控制块)的标题中的字段中:

glibc-2.16.0/nptl/sysdeps/i386/tls.h

_head->sysinfo = GLRO(dl_sysinfo)

如果内核是旧的并且没有提供vdso,glibc提供了_dl_sysinfo的默认实现:

.hidden _dl_sysinfo_int80:
int $0x80
ret

当针对glibc编译程序时,根据具体情况,可以选择不同的方式调用系统调用:

glibc-2.16.0/sysdeps/unix/sysv/linux/i386/sysdep.h:
/* The original calling convention for system calls on Linux/i386 is
   to use int $0x80.  */
#ifdef I386_USE_SYSENTER
# ifdef SHARED
#  define ENTER_KERNEL call *%gs:SYSINFO_OFFSET
# else
#  define ENTER_KERNEL call *_dl_sysinfo
# endif
#else
# define ENTER_KERNEL int $0x80
#endif
  • int 0x80←传统方式
  • call *%gs:offsetof(tcb_head_t, sysinfo)%gs指向TCB,因此通过指向TCB中存储的vsyscall的指针间接跳转。这适用于编译为PIC的对象。这需要TLS初始化。对于动态可执行文件,TLS由ld.so初始化。对于静态PIE可执行文件,TLS由__libc_setup_tls()初始化。
  • call *_dl_sysinfo←这通过全局变量间接跳转。这需要重定位_dl_sysinfo,因此可以避免编译为PIC的对象。

所以,在x86中:

                       fork()
                         ↓
int 0x80 / call *%gs:0x10 / call *_dl_sysinfo 
  |                ↓              ↓
  |       (in vdso) int 0x80 / sysenter / syscall
  ↓                ↓              ↓            ↓
      system_call     | ia32_sysenter_target | ia32_cstar_target
                          ↓
                       sys_fork()