如何以编程方式获取特定地址的页面大小?

时间:2014-01-16 11:04:59

标签: c linux huge-pages

我正在寻找一种方法来实现一个获取地址的函数,并告诉该地址中使用的页面大小。一个解决方案在/ proc // smaps中查找段中的地址,并返回“KernelPageSize:”的值。这个解决方案非常慢,因为它涉及线性读取文件,文件可能很长。我需要一种更快,更有效的解决方案。

是否有系统调用? (int getpagesizefromaddr(void * addr);) 如果没有,有没有办法推断出页面大小?

1 个答案:

答案 0 :(得分:3)

许多Linux体系结构支持“大页面”,有关详细信息,请参阅Documentation/vm/hugetlbpage.txt。例如,在x86-64上,sysconf(_SC_PAGESIZE)报告4096作为页面大小,但也可以使用2097152字节的大页面。从应用程序的角度来看,这很少重要;内核完全能够根据需要从一种页面类型转换为另一种页面类型,而用户空间应用程序不必担心它。

但是,对于特定工作负载,性能的好处是显着的。这就是开发透明的大页面支持(参见Documentation/vm/transhuge.txt)的原因。这在虚拟环境中尤其明显,即工作负载在访客环境中运行。 madvise()的新建议标记MADV_HUGEPAGEMADV_NOHUGEPAGE允许应用程序告诉内核其偏好,以便mmap(...MAP_HUGETLB...)不是唯一的获得这些性能优势的方法。

我个人认为Eldad的猜测与在访客环境中运行的工作负载有关,重点是在基准测试时观察页面映射类型(正常或大页面),以找出特定工作负载的最有效配置。 / p>

让我们通过展示一个真实世界的例子huge.c消除所有误解:

#include <stdlib.h>
#include <unistd.h>
#include <sys/mman.h>
#include <string.h>
#include <stdio.h>
#include <errno.h>

#define  PAGES 1024

int main(void)
{
    FILE   *in;
    void   *ptr;
    size_t  page;

    page = (size_t)sysconf(_SC_PAGESIZE);

    ptr = mmap(NULL, PAGES * page, PROT_READ | PROT_WRITE, MAP_PRIVATE | MAP_ANONYMOUS | MAP_HUGETLB, -1, (off_t)0);
    if (ptr == MAP_FAILED) {
        fprintf(stderr, "Cannot map %ld pages (%ld bytes): %s.\n", (long)PAGES, (long)PAGES * page, strerror(errno));
        return 1;
    }

    /* Dump /proc/self/smaps to standard out. */
    in = fopen("/proc/self/smaps", "rb");
    if (!in) {
        fprintf(stderr, "Cannot open /proc/self/smaps: %s.\n", strerror(errno));
        return 1;
    }
    while (1) {
        char *line, buffer[1024];

        line = fgets(buffer, sizeof buffer, in);
        if (!line)
            break;

        if ((line[0] >= '0' && line[0] <= '9') ||
            (line[0] >= 'a' && line[0] <= 'f') ||
            (strstr(line, "Page")) ||
            (strstr(line, "Size")) ||
            (strstr(line, "Huge"))) {
            fputs(line, stdout);
            continue;
        }
    }

    fclose(in);
    return 0;
}

如果可能,上面使用大页面分配1024页。 (在x86-64上,一个巨大的页面是2个MiB或512个普通页面,所以这应该分配两个大页面的值,或4 MiB的私有匿名内存。如果你运行不同的话,调整PAGES常量体系结构。)

通过验证/proc/sys/vm/nr_hugepages大于零来确保启用了大页面。在大多数系统上,它默认为零,因此您需要提高它,例如使用

sudo sh -c 'echo 10 > /proc/sys/vm/nr_hugepages'

告诉内核保留10个大页面池(x86-64上有20 MiB)。

编译并运行上述程序,

gcc -W -Wall -O3 huge.c -o huge && ./huge

您将获得缩写/proc/PID/smaps输出。在我的机器上,有趣的部分包含

2aaaaac00000-2aaaab000000 rw-p 00000000 00:0c 21613022   /anon_hugepage (deleted)
Size:               4096 kB
AnonHugePages:         0 kB
KernelPageSize:     2048 kB
MMUPageSize:        2048 kB

明显不同于典型的部分,例如

01830000-01851000 rw-p 00000000 00:00 0   [heap]
Size:                132 kB
AnonHugePages:         0 kB
KernelPageSize:        4 kB
MMUPageSize:           4 kB

man 5 proc中描述了完整/proc/self/smaps文件的确切格式,并且解析非常简单。请注意,这是由内核生成的伪文件,因此它永远不会被本地化;空格字符是HT(代码9)和SP(代码32),换行符是LF(代码10)。


我推荐的方法是维护一个描述映射的结构,例如

struct region {
    size_t  start;    /* first in region at (void *)start */
    size_t  length;   /* last in region at (void *)(start + length - 1) */
    size_t  pagesize; /* KernelPageSize field */
};

struct maps {
    size_t           length;   /* of /proc/self/smaps */
    unsigned long    hash;     /* fast hash, say DJB XOR */
    size_t           count;    /* number of regions */
    pthread_rwlock_t lock;     /* region array lock */
    struct region   *region;
};

只有当一个线程检查区域数组而另一个线程正在更新或替换它时,才需要lock成员。

这个想法是,在所需的时间间隔,读取/proc/self/smaps伪文件,并计算快速,简单的散列(或CRC)。如果长度和哈希匹配,则假设映射没有改变,并重用现有信息。否则,将执行写锁定(请记住,信息已经过时),解析了映射信息,并生成了新的region数组。

如果是多线程的,lock成员允许多个并发读取器,但可以防止使用丢弃的region数组。

注意:在计算哈希时,您还可以计算地图条目的数量,因为属性行都以大写的ASCII字母(A - Z开头,代码65到90)。换句话说,以小写十六进制数字开头的行数(0 - 9,代码48到57或a - f,代码97到102 )是描述的内存区域的数量。


C库提供的功能mmap()munmap()mremap()madvise()(和posix_madvise()),mprotect()malloc()calloc()realloc()free()brk()sbrk()可能会更改内存映射(虽然我不确定此列表包含所有)。可以插入这些库调用,并在每次(成功)调用后更新内存区域列表。这应该允许应用程序依赖内存区域结构来获取准确的信息。

就个人而言,我会将此工具创建为预加载库(使用LD_PRELOAD加载)。这样就可以用几行代码轻松插入上述函数:插入的函数调用原始函数,如果成功,则调用一个内部函数,从/proc/self/smaps重新加载内存区域信息。应注意调用原始内存管理功能,并保持errno不变;否则它应该是非常简单的。我个人也会避免使用库函数(包括string.h)来解析字段,但我仍然非常小心。

插入的库显然还提供了查询特定地址的页面大小的功能,比如pagesizeat()。 (如果您的应用程序导出的弱版本始终返回-1 errno==ENOTSUP,那么您的预加载库可以覆盖它,您无需担心预加载库是否已加载 - 如果不,该函数只会返回错误。)

有问题吗?