我正在使用下面的代码对监视页面错误进行简单的测试,我不知道的是,下面的简单一行代码如何使页面错误计数加倍。 如果我使用
ptr[i+4096] = 'A'
我使用perf工具得到了 25,722 个页面错误,这是我所期望的, 但是如果我使用
tmp = ptr[i+4096]
相反,页面错误翻了一番,达到 51,322 我不怎么解释。以下是完整的代码。谢谢!
void do_something() {
int i;
char* ptr;
char tmp;
ptr = malloc(100*1024*1024);
int j = 0;
int k = 0;
for (i = 0; i < 100*1024*1024; i+=4096) {
//ptr[i+4096] = 'A' ;
tmp = ptr[i+4096];
for (j = 0 ; j < 4096; j++)
ptr[i+j] = (char) (i & 0xff); // pagefault
}
free(ptr);
}
int main(int argc, char* argv[]) {
do_something();
return 0;
}
机器信息: 架构:x86_64 CPU操作模式:32位,64位 字节顺序:小尾数 处理器:40 在线CPU列表:0-39 每个核心线程数:2 每个插槽的核心数:10 插座:2 NUMA个节点:2 供应商ID:正版英特尔 CPU系列:6 型号:63 型号名称:Intel(R)Xeon(R)CPU E5-2687W v3 @ 3.10GHz 步进:2 CPU MHz:3096.188 BogoMIPS:6197.81 虚拟化:VT-x L1d快取:32K L1i缓存:32K L2快取:256K 三级缓存:25600K NUMA node0 CPU:0-9,20-29 NUMA个node1 CPU:10-19,30-39
3.10.0-514.32.3.el7.x86_64#1
答案 0 :(得分:4)
malloc()
通常会通过向操作系统请求新页面(例如通过mmap
)来满足存储请求。这样的页面通常是延迟分配的:在首次访问之前,不会分配任何实际页面。
然后发生的事情取决于首次访问的类型:当您首先进行读取时,Linux将在共享的只读COW页面中映射零以使其满足,然后在以后进行写入分配私有可写页面需要第二次错误。
仅当您首先执行写操作时,将跳过第一步。这是通常的情况,因为代码通常不会从具有未定义内容的新分配内存中读取(至少从malloc
获取时)。
请注意,以上内容描述了Linux中新分配的页面的工作方式-当您使用malloc
时,存在另一层:malloc
通常会尝试满足对块的请求,该请求先前已释放,而不是不断地请求新的内存。在重复使用内存的情况下,通常已经将其分页了,以上内容将不适用。当然,对于您最初的1024 MiB大型分配来说,这里没有可重复使用的内存,因此您可以确保分配器是从OS中获取的。