我正在尝试在文件系统(例如ext2)中搜索特定字节(例如0xAB)的项目。我能够使用malloc()
,realloc()
和memchr()
找到我需要的内容,但它似乎很慢,所以我正在研究使用mmap()
。我想要做的是找到一个特定的字节,然后将它们复制到一个结构中,所以我有两个问题:(1)使用mmap()
最佳策略,(2)为什么不是以下代码工作(我得到EINVAL错误)?
更新:以下程序编译并运行但我仍然有几个问题:
1)它不会在大文件上显示正确的文件大小(1GB闪存驱动器显示正确的大小,但不是32GB)*。
2)它没有正确搜索映射**。
* THIS是使用stat64()
获取正确尺寸的可能解决方案吗?如果是这样,我在Makefile中添加了什么?我没有使用过makefile,所以我不知道如何添加类似的东西。
**这甚至是正确的搜索方式吗?
#define _LARGEFILE64_SOURCE
#include <stdio.h>
#include <fcntl.h>
#include <stdlib.h>
#include <string.h>
#include <sys/stat.h>
#include <sys/types.h>
#include <unistd.h>
#include <errno.h>
#define handle_error(msg) \
do { perror(msg); exit(EXIT_FAILURE); } while (0)
int main(int argc, char **argv) {
int fd = open("/dev/sdb1", O_RDONLY);
if(fd < 0) {
printf("Error %s\n", strerror(errno));
return -1;
}
const char * map;
off64_t size;
size = lseek64(fd, 0, SEEK_END);
printf("file size: %llu\n", size);
lseek64(fd, 0, SEEK_SET);
map = mmap(0, size, PROT_READ, MAP_SHARED, fd, 0);
if (map == MAP_FAILED) { handle_error("mmap error"); }
printf("Searching for magic numbers...\n");
for (i=0; i < size; i++) {
if(map[i] == 0X53 && map[i + 1] == 0XEF) {
if ((map[i-32] == 0X00 && map[i-31] == 0X00) ||
(map[i-32] == 0X01 && map[i-31] == 0X00) ||
(map[i-32] == 0X02 && map[i-31] == 0X00)) {
if(j <= 5) {
printf("superblock %d found\n", j);
++j;
} else break;
int q;
for(q=0; q<j; q++) {
printf("SUPERBLOCK[%d]: %d\n", q+1, sb_pos[q]);
}
fclose(fd);
munmap(map, size);
return 0;
}
感谢您的帮助。
答案 0 :(得分:1)
mmap
是处理大型文件搜索的一种非常有效的方法,尤其是在您可以使用内部结构的情况下(例如,在具有固定大小记录的大型文件上使用mmap
已排序将允许您进行二进制搜索,并且只触摸与读取的记录对应的页面。
在您的情况下,您需要编译64位并启用大文件支持(并使用open(2)
)。
如果您的/dev/sdb1
是设备而不是文件,我认为stat(2)
不会显示实际尺寸。 stat
在我的盒子上为这些设备返回0的大小。我认为你需要以另一种方式获得尺寸。
关于地址空间:x86-64使用2 ^ 48字节的虚拟地址空间,即256 TiB。你无法使用所有这些,但在大多数进程中容易有~127 TiB的连续地址空间。
答案 1 :(得分:0)
我刚注意到我正在使用fopen(),我应该使用open()吗?
是的,您应该使用open()而不是fopen()。这就是你得到EINVAL错误的原因。
fopen(&#34; / dev / sdb1&#34;,O_RDONLY);
此代码完全不正确。 O_RDONLY是应该与open()系统调用一起使用的标志,但不能与fopen()libc functgion一起使用
您还应注意,只有在具有大虚拟地址空间的平台上运行时,才能使用大型文件的mmaping。很明显:你应该有足够的虚拟内存来处理你的文件。谈到英特尔,它应该只是x86_64,而不是x86_32。
我还没有尝试使用非常大的文件(&gt; 4G)。可能需要将一些额外的标志传递给open()系统调用。
答案 2 :(得分:0)
我正在尝试在文件系统中搜索特定字节(例如0xAB)的项目(例如ext2)
在你的情况下,将mma()大文件存入内存是完全错误的方法。您只需要按固定大小(大约1MB)的块一步一步地处理文件。您可以使用mmap()或只读()它到您的内部缓冲区 - 这无关紧要。但是如果你只是想按顺序处理它,那么将整个文件放入内存是完全过分的。