使用mmap()搜索大文件(~1TB)

时间:2016-02-26 15:41:49

标签: c linux mmap

我正在尝试在文件系统(例如ext2)中搜索特定字节(例如0xAB)的项目。我能够使用malloc()realloc()memchr()找到我需要的内容,但它似乎很慢,所以我正在研究使用mmap()。我想要做的是找到一个特定的字节,然后将它们复制到一个结构中,所以我有两个问题:(1)使用mmap()最佳策略,(2)为什么不是以下代码工作(我得到EINVAL错误)?

更新:以下程序编译并运行但我仍然有几个问题:
1)它不会在大文件上显示正确的文件大小(1GB闪存驱动器显示正确的大小,但不是32GB)*。
2)它没有正确搜索映射**。

* THIS是使用stat64()获取正确尺寸的可能解决方案吗?如果是这样,我在Makefile中添加了什么?我没有使用过makefile,所以我不知道如何添加类似的东西。
**这甚至是正确的搜索方式吗?

#define _LARGEFILE64_SOURCE

#include <stdio.h>
#include <fcntl.h>
#include <stdlib.h>
#include <string.h>
#include <sys/stat.h>
#include <sys/types.h>
#include <unistd.h>
#include <errno.h> 
#define handle_error(msg) \
do { perror(msg); exit(EXIT_FAILURE); } while (0)

int main(int argc, char **argv) {

    int fd = open("/dev/sdb1", O_RDONLY); 

    if(fd < 0) {
        printf("Error %s\n", strerror(errno));
        return -1;
    }

    const char * map;   

    off64_t size;
    size = lseek64(fd, 0, SEEK_END);
    printf("file size: %llu\n", size);
    lseek64(fd, 0, SEEK_SET);    

    map = mmap(0, size, PROT_READ, MAP_SHARED, fd, 0); 
    if (map == MAP_FAILED) { handle_error("mmap error"); }

    printf("Searching for magic numbers...\n");
    for (i=0; i < size; i++) {
    if(map[i] == 0X53 && map[i + 1] == 0XEF) {  
        if ((map[i-32] == 0X00 && map[i-31] == 0X00)  ||            
            (map[i-32] == 0X01 && map[i-31] == 0X00)  ||
            (map[i-32] == 0X02 && map[i-31] == 0X00)) {
            if(j <= 5) { 
                printf("superblock %d found\n", j);
                ++j; 
            } else break;

    int q;
    for(q=0; q<j; q++) {
        printf("SUPERBLOCK[%d]: %d\n", q+1, sb_pos[q]);
    }

    fclose(fd);
    munmap(map, size);
    return 0;
}

感谢您的帮助。

3 个答案:

答案 0 :(得分:1)

mmap是处理大型文件搜索的一种非常有效的方法,尤其是在您可以使用内部结构的情况下(例如,在具有固定大小记录的大型文件上使用mmap已排序将允许您进行二进制搜索,并且只触摸与读取的记录对应的页面。

在您的情况下,您需要编译64位并启用大文件支持(并使用open(2))。

如果您的/dev/sdb1是设备而不是文件,我认为stat(2)不会显示实际尺寸。 stat在我的盒子上为这些设备返回0的大小。我认为你需要以另一种方式获得尺寸。

关于地址空间:x86-64使用2 ^ 48字节的虚拟地址空间,即256 TiB。你无法使用所有这些,但在大多数进程中容易有~127 TiB的连续地址空间。

答案 1 :(得分:0)

  

我刚注意到我正在使用fopen(),我应该使用open()吗?

是的,您应该使用open()而不是fopen()。这就是你得到EINVAL错误的原因。

  

fopen(&#34; / dev / sdb1&#34;,O_RDONLY);

此代码完全不正确。 O_RDONLY是应该与open()系统调用一起使用的标志,但不能与fopen()libc functgion一起使用

您还应注意,只有在具有大虚拟地址空间的平台上运行时,才能使用大型文件的mmaping。很明显:你应该有足够的虚拟内存来处理你的文件。谈到英特尔,它应该只是x86_64,而不是x86_32。

我还没有尝试使用非常大的文件(&gt; 4G)。可能需要将一些额外的标志传递给open()系统调用。

答案 2 :(得分:0)

  

我正在尝试在文件系统中搜索特定字节(例如0xAB)的项目(例如ext2)

在你的情况下,将mma()大文件存入内存是完全错误的方法。您只需要按固定大小(大约1MB)的块一步一步地处理文件。您可以使用mmap()或只读()它到您的内部缓冲区 - 这无关紧要。但是如果你只是想按顺序处理它,那么将整个文件放入内存是完全过分的。