Question

在Linux中，如果使用C，如果我通过malloc或类似的动态分配机制请求大量内存，则支持返回区域的大多数页面可能实际上不会被映射到我的进程的地址空间。

相反，每次我第一次访问分配的页面时，都会发生页面错误，然后内核将映射到“匿名”页面（完全由零组成）并返回用户空间。

对于较大的区域（例如1 GiB），这是大量的页面错误（对于4 KiB页面，约为26万个页面错误），并且 each 错误会导致用户向内核用户过渡在使用Spectre和Meltdown缓解措施的内核上，这特别慢。对于某些用途，此页面错误时间可能会占据缓冲区实际执行的工作。

如果我知道我将使用整个缓冲区，是否有某种方法可以要求内核提前映射已映射区域？

如果我使用mmap分配自己的内存，则方法是MAP_POPULATE-但这不适用于从malloc或{{1}收到的区域}。这里有new调用，但是那里的选项似乎主要适用于文件支持的区域。

Answer 1

这有点肮脏，最适合特权进程或RLIMIT_MEMLOCK高的系统，但是... mlock和munlock对将达到效果您正在寻找。

例如，给定以下测试程序：

# compile with (for e.g.,): cc -O1 -Wall    pagefaults.c   -o pagefaults

#include <stdlib.h>
#include <stdio.h>
#include <err.h>
#include <sys/mman.h>

#define DEFAULT_SIZE        (40 * 1024 * 1024)
#define PG_SIZE     4096

void failcheck(int ret, const char* what) {
    if (ret) {
        err(EXIT_FAILURE, "%s failed", what);
    } else {
        printf("%s OK\n", what);
    }
}

int main(int argc, char **argv) {
    size_t size = (argc == 2 ? atol(argv[1]) : DEFAULT_SIZE);
    char *mem = malloc(size);

    if (getenv("DO_MADVISE")) {
        failcheck(madvise(mem, size, MADV_WILLNEED), "madvise");
    }

    if (getenv("DO_MLOCK")) {
        failcheck(mlock(mem, size), "mlock");
        failcheck(munlock(mem, size), "munlock");
    }

    for (volatile char *p = mem; p < mem + size; p += PG_SIZE) {
        *p = 'z';
    }
    printf("size: %6.2f MiB, pages touched: %zu\npoitner value : %p\n",
            size / 1024. / 1024., size / PG_SIZE, mem);
}

以root身份在1 GB的区域中运行它，并用perf进行页面错误计数会导致：

$ perf stat ./pagefaults 1000000000
size: 953.67 MiB, pages touched: 244140
poitner value : 0x7f2fc2584010

 Performance counter stats for './pagefaults 1000000000':

        352.474676      task-clock (msec)         #    0.999 CPUs utilized          
                 2      context-switches          #    0.006 K/sec                  
                 0      cpu-migrations            #    0.000 K/sec                  
           244,189      page-faults               #    0.693 M/sec                  
       914,276,474      cycles                    #    2.594 GHz                    
       703,359,688      instructions              #    0.77  insn per cycle         
       117,710,381      branches                  #  333.954 M/sec                  
           447,022      branch-misses             #    0.38% of all branches        

       0.352814087 seconds time elapsed

但是，如果以DO_MLOCK=1为前缀运行，则会得到：

sudo DO_MLOCK=1 perf stat ./pagefaults 1000000000
mlock OK
munlock OK
size: 953.67 MiB, pages touched: 244140
poitner value : 0x7f8047f6b010

 Performance counter stats for './pagefaults 1000000000':

        240.236189      task-clock (msec)         #    0.999 CPUs utilized          
                 0      context-switches          #    0.000 K/sec                  
                 0      cpu-migrations            #    0.000 K/sec                  
                49      page-faults               #    0.204 K/sec                  
       623,152,764      cycles                    #    2.594 GHz                    
       959,640,219      instructions              #    1.54  insn per cycle         
       150,713,144      branches                  #  627.354 M/sec                  
           484,400      branch-misses             #    0.32% of all branches        

       0.240538327 seconds time elapsed

请注意，页面错误的数量已从244,189下降到49，并且加速了1.46倍。绝大多数时间仍然花在内核上，因此，如果既不必同时调用mlock和munlock，又可能因为{{ 1}}超出了要求。

对于非特权进程，如果您尝试一次同时做一个大区域（在我的Ubuntu系统上，设置为64 Kib），您可能会打mlock，但是您可以在该区域上循环在较小的区域调用RLIMIT_MEMLOCK。

我可以要求内核填充一系列匿名页面吗？

1 个答案: