我有一个小C代码转储进程内存然后尝试REGEX匹配一个字符串。如果我想转储进程但REGEX失败,或者我错误地搜索内存缓冲区,一切顺利。有什么想法吗?
#define _LARGEFILE64_SOURCE
#include <stdlib.h>
#include <stdio.h>
#include <sys/ptrace.h>
#include <unistd.h>
#include <fcntl.h>
#include <regex.h>
void dump_region(int fd, off64_t start, off64_t end)
{
char buf[4096];
int a, i;
regex_t re;
regmatch_t pm;
a = regcomp(&re, "([0-9]{10,20})", REG_EXTENDED);
if(a!=0)
printf(" -> Error: Invalid Regex");
lseek64(fd, start, SEEK_SET);
while(start < end) {
int rd;
rd = read(fd, buf, 4096);
//write(STDOUT_FILENO, buf, rd); // HERE dumping is OK
a = regexec(&re, &buf[0], 1, &pm, REG_EXTENDED); // something I do wrong here
if(a==0) {
for(i = pm.rm_so; i < pm.rm_eo; i++)
printf("%c", buf[i]);
printf("\n");
}
start += 4096;
}
}
int main(int argc, char *argv[])
{
FILE *maps;
int mem;
pid_t pid;
char path[BUFSIZ];
if(argc < 2) {
fprintf(stderr, "usage: %s pid\n", argv[0]);
return EXIT_FAILURE;
}
pid = strtol(argv[1], NULL, 10);
if(ptrace(PTRACE_ATTACH, pid, NULL, NULL) == -1) {
perror("ptrace");
return EXIT_FAILURE;
}
snprintf(path, sizeof(path), "/proc/%d/maps", pid);
maps = fopen(path, "r");
snprintf(path, sizeof(path), "/proc/%d/mem", pid);
mem = open(path, O_RDONLY);
if(maps && mem != -1) {
char buf[BUFSIZ + 1];
while(fgets(buf, BUFSIZ, maps)) {
off64_t start, end;
sscanf(buf, "%llx-%llx", &start, &end);
dump_region(mem, start, end);
}
}
ptrace(PTRACE_DETACH, pid, NULL, NULL);
if(mem != -1)
close(mem);
if(maps)
fclose(maps);
return EXIT_SUCCESS;
}
编辑:
尝试了另一个版本,仍然出现问题或者我错过的东西......
#define _LARGEFILE64_SOURCE
#include <stdlib.h>
#include <stdio.h>
#include <sys/ptrace.h>
#include <unistd.h>
#include <fcntl.h>
#include <regex.h>
void dump_region(int fd, off64_t start, off64_t end)
{
char buf[4096];
int status,i;
int cflags = REG_EXTENDED;
regmatch_t pmatch[1];
const size_t nmatch=1;
regex_t reg;
const char *pattern="([0-9]{10,20})";
regcomp(®, pattern, cflags);
lseek64(fd, start, SEEK_SET);
while(start < end) {
int rd;
rd = read(fd, buf, sizeof buf - 1);
if(rd > 0)
{
buf[rd] = '\0';
status = regexec(®, buf, nmatch, pmatch, 0);
if(status == REG_NOMATCH)
printf("No Match\n");
else if(status == 0){
printf("Match:\n");
for (i=pmatch[0].rm_so; i<pmatch[0].rm_eo; ++i) {
putchar(buf[i]);
}
printf("\n");
}
regfree(®);
return;
}
start += 4096;
}
}
int main(int argc, char *argv[])
{
FILE *maps;
int mem;
pid_t pid;
char path[BUFSIZ];
if(argc < 2) {
fprintf(stderr, "usage: %s pid\n", argv[0]);
return EXIT_FAILURE;
}
pid = strtol(argv[1], NULL, 10);
if(ptrace(PTRACE_ATTACH, pid, NULL, NULL) == -1) {
perror("ptrace");
return EXIT_FAILURE;
}
snprintf(path, sizeof(path), "/proc/%d/maps", pid);
maps = fopen(path, "r");
snprintf(path, sizeof(path), "/proc/%d/mem", pid);
mem = open(path, O_RDONLY);
if(maps && mem != -1) {
char buf[BUFSIZ + 1];
while(fgets(buf, BUFSIZ, maps)) {
off64_t start, end;
sscanf(buf, "%llx-%llx", &start, &end);
dump_region(mem, start, end);
}
}
ptrace(PTRACE_DETACH, pid, NULL, NULL);
if(mem != -1)
close(mem);
if(maps)
fclose(maps);
return EXIT_SUCCESS;
}
有任何帮助吗?想法?
更新。似乎第二个版本部分有效但是从我从转储的内存文件中获得1193
的大约egrep
个匹配项我得到的代码只有两个。有什么想法吗?
答案 0 :(得分:1)
无法保证传递给regexec()
的缓冲区是有效字符串,应该是。 The manual page for regexec()
将函数描述为:
regexec()
用于将以null结尾的字符串与预编译的模式缓冲区匹配[...]
因此,您必须通过执行以下操作来确保搜索的数据是正确的字符串:
rd = read(fd, buf, sizeof buf - 1);
if(rd > 0)
{
buf[rd] = '\0';
a = regexec(&re, buf, 1, &pm, REG_EXTENDED);
/* ... rest of code ... */
}
当rd
为< 0
时,这也可以防止读取错误。
作为一般说明,要意识到“流式传输”正则表达式匹配器通常不是一件容易的事。如果RE匹配跨越你的读缓冲区大小怎么办?然后你可能会错过匹配,因为你只允许匹配器在实际数据中看到不相交的“窗口”。
另外,正如@xtmtrx's评论中指出的那样,您正在阅读的数据不是文本,而是二进制文件。这意味着它通常会包含许多“奇怪”值,例如嵌入的0字节,它们将(regexec()
)视为字符串终止符。如果其中一个出现在您在一个块中查找的某些数据之前,那么您将错过数据,因为regexec()
将不会读取超过字符串结尾的数据。
一种解决方案是在尝试匹配之前过滤掉非文本数据,例如使用循环和isprint()
。