Question

我正在使用下面的代码对监视页面错误进行简单的测试，我不知道的是，下面的简单一行代码如何使页面错误计数加倍。如果我使用

 ptr[i+4096] = 'A'

我使用perf工具得到了 25,722 个页面错误，这是我所期望的，但是如果我使用

tmp = ptr[i+4096]

相反，页面错误翻了一番，达到 51,322 我不怎么解释。以下是完整的代码。谢谢！

void do_something() {
    int i;
    char* ptr;
    char tmp;
    ptr = malloc(100*1024*1024);
    int j = 0;
    int k = 0;

    for (i = 0; i < 100*1024*1024; i+=4096) {

       //ptr[i+4096] = 'A' ;
       tmp = ptr[i+4096];

       for (j = 0 ; j < 4096; j++)
           ptr[i+j] = (char) (i & 0xff); // pagefault
    }
    free(ptr);
}

int main(int argc, char* argv[]) {
    do_something();
    return 0;
}

机器信息：架构：x86_64 CPU操作模式：32位，64位字节顺序：小尾数处理器：40 在线CPU列表：0-39 每个核心线程数：2 每个插槽的核心数：10 插座：2 NUMA个节点：2 供应商ID：正版英特尔 CPU系列：6 型号：63 型号名称：Intel（R）Xeon（R）CPU E5-2687W v3 @ 3.10GHz 步进：2 CPU MHz：3096.188 BogoMIPS：6197.81 虚拟化：VT-x L1d快取：32K L1i缓存：32K L2快取：256K 三级缓存：25600K NUMA node0 CPU：0-9,20-29 NUMA个node1 CPU：10-19,30-39

3.10.0-514.32.3.el7.x86_64＃1

Answer 1

malloc()通常会通过向操作系统请求新页面（例如通过mmap）来满足存储请求。这样的页面通常是延迟分配的：在首次访问之前，不会分配任何实际页面。

然后发生的事情取决于首次访问的类型：当您首先进行读取时，Linux将在共享的只读COW页面中映射零以使其满足，然后在以后进行写入分配私有可写页面需要第二次错误。

仅当您首先执行写操作时，将跳过第一步。这是通常的情况，因为代码通常不会从具有未定义内容的新分配内存中读取（至少从malloc获取时）。

请注意，以上内容描述了Linux中新分配的页面的工作方式-当您使用malloc时，存在另一层：malloc通常会尝试满足对块的请求，该请求先前已释放，而不是不断地请求新的内存。在重复使用内存的情况下，通常已经将其分页了，以上内容将不适用。当然，对于您最初的1024 MiB大型分配来说，这里没有可重复使用的内存，因此您可以确保分配器是从OS中获取的。

从大型malloc数组读取而不仅仅是存储时，页面错误是两倍？

1 个答案: