我正在寻找一种方法来实现一个获取地址的函数,并告诉该地址中使用的页面大小。一个解决方案在/ proc // smaps中查找段中的地址,并返回“KernelPageSize:”的值。这个解决方案非常慢,因为它涉及线性读取文件,文件可能很长。我需要一种更快,更有效的解决方案。
是否有系统调用? (int getpagesizefromaddr(void * addr);) 如果没有,有没有办法推断出页面大小?
答案 0 :(得分:3)
许多Linux体系结构支持“大页面”,有关详细信息,请参阅Documentation/vm/hugetlbpage.txt。例如,在x86-64上,sysconf(_SC_PAGESIZE)
报告4096作为页面大小,但也可以使用2097152字节的大页面。从应用程序的角度来看,这很少重要;内核完全能够根据需要从一种页面类型转换为另一种页面类型,而用户空间应用程序不必担心它。
但是,对于特定工作负载,性能的好处是显着的。这就是开发透明的大页面支持(参见Documentation/vm/transhuge.txt)的原因。这在虚拟环境中尤其明显,即工作负载在访客环境中运行。 madvise()的新建议标记MADV_HUGEPAGE
和MADV_NOHUGEPAGE
允许应用程序告诉内核其偏好,以便mmap(...MAP_HUGETLB...)
不是唯一的获得这些性能优势的方法。
我个人认为Eldad的猜测与在访客环境中运行的工作负载有关,重点是在基准测试时观察页面映射类型(正常或大页面),以找出特定工作负载的最有效配置。 / p>
让我们通过展示一个真实世界的例子huge.c
消除所有误解:
#include <stdlib.h>
#include <unistd.h>
#include <sys/mman.h>
#include <string.h>
#include <stdio.h>
#include <errno.h>
#define PAGES 1024
int main(void)
{
FILE *in;
void *ptr;
size_t page;
page = (size_t)sysconf(_SC_PAGESIZE);
ptr = mmap(NULL, PAGES * page, PROT_READ | PROT_WRITE, MAP_PRIVATE | MAP_ANONYMOUS | MAP_HUGETLB, -1, (off_t)0);
if (ptr == MAP_FAILED) {
fprintf(stderr, "Cannot map %ld pages (%ld bytes): %s.\n", (long)PAGES, (long)PAGES * page, strerror(errno));
return 1;
}
/* Dump /proc/self/smaps to standard out. */
in = fopen("/proc/self/smaps", "rb");
if (!in) {
fprintf(stderr, "Cannot open /proc/self/smaps: %s.\n", strerror(errno));
return 1;
}
while (1) {
char *line, buffer[1024];
line = fgets(buffer, sizeof buffer, in);
if (!line)
break;
if ((line[0] >= '0' && line[0] <= '9') ||
(line[0] >= 'a' && line[0] <= 'f') ||
(strstr(line, "Page")) ||
(strstr(line, "Size")) ||
(strstr(line, "Huge"))) {
fputs(line, stdout);
continue;
}
}
fclose(in);
return 0;
}
如果可能,上面使用大页面分配1024页。 (在x86-64上,一个巨大的页面是2个MiB或512个普通页面,所以这应该分配两个大页面的值,或4 MiB的私有匿名内存。如果你运行不同的话,调整PAGES
常量体系结构。)
通过验证/proc/sys/vm/nr_hugepages
大于零来确保启用了大页面。在大多数系统上,它默认为零,因此您需要提高它,例如使用
sudo sh -c 'echo 10 > /proc/sys/vm/nr_hugepages'
告诉内核保留10个大页面池(x86-64上有20 MiB)。
编译并运行上述程序,
gcc -W -Wall -O3 huge.c -o huge && ./huge
您将获得缩写/proc/PID/smaps
输出。在我的机器上,有趣的部分包含
2aaaaac00000-2aaaab000000 rw-p 00000000 00:0c 21613022 /anon_hugepage (deleted)
Size: 4096 kB
AnonHugePages: 0 kB
KernelPageSize: 2048 kB
MMUPageSize: 2048 kB
明显不同于典型的部分,例如
01830000-01851000 rw-p 00000000 00:00 0 [heap]
Size: 132 kB
AnonHugePages: 0 kB
KernelPageSize: 4 kB
MMUPageSize: 4 kB
man 5 proc
中描述了完整/proc/self/smaps
文件的确切格式,并且解析非常简单。请注意,这是由内核生成的伪文件,因此它永远不会被本地化;空格字符是HT(代码9)和SP(代码32),换行符是LF(代码10)。
我推荐的方法是维护一个描述映射的结构,例如
struct region {
size_t start; /* first in region at (void *)start */
size_t length; /* last in region at (void *)(start + length - 1) */
size_t pagesize; /* KernelPageSize field */
};
struct maps {
size_t length; /* of /proc/self/smaps */
unsigned long hash; /* fast hash, say DJB XOR */
size_t count; /* number of regions */
pthread_rwlock_t lock; /* region array lock */
struct region *region;
};
只有当一个线程检查区域数组而另一个线程正在更新或替换它时,才需要lock
成员。
这个想法是,在所需的时间间隔,读取/proc/self/smaps
伪文件,并计算快速,简单的散列(或CRC)。如果长度和哈希匹配,则假设映射没有改变,并重用现有信息。否则,将执行写锁定(请记住,信息已经过时),解析了映射信息,并生成了新的region
数组。
如果是多线程的,lock
成员允许多个并发读取器,但可以防止使用丢弃的region
数组。
注意:在计算哈希时,您还可以计算地图条目的数量,因为属性行都以大写的ASCII字母(A
- Z
开头,代码65到90)。换句话说,以小写十六进制数字开头的行数(0
- 9
,代码48到57或a
- f
,代码97到102 )是描述的内存区域的数量。
C库提供的功能mmap()
,munmap()
,mremap()
,madvise()
(和posix_madvise()
),mprotect()
, malloc()
,calloc()
,realloc()
,free()
,brk()
和sbrk()
可能会更改内存映射(虽然我不确定此列表包含所有)。可以插入这些库调用,并在每次(成功)调用后更新内存区域列表。这应该允许应用程序依赖内存区域结构来获取准确的信息。
就个人而言,我会将此工具创建为预加载库(使用LD_PRELOAD
加载)。这样就可以用几行代码轻松插入上述函数:插入的函数调用原始函数,如果成功,则调用一个内部函数,从/proc/self/smaps
重新加载内存区域信息。应注意调用原始内存管理功能,并保持errno
不变;否则它应该是非常简单的。我个人也会避免使用库函数(包括string.h
)来解析字段,但我仍然非常小心。
插入的库显然还提供了查询特定地址的页面大小的功能,比如pagesizeat()
。 (如果您的应用程序导出的弱版本始终返回-1
errno==ENOTSUP
,那么您的预加载库可以覆盖它,您无需担心预加载库是否已加载 - 如果不,该函数只会返回错误。)
有问题吗?