Linux C转储进程内存区域并搜索字符串问题

时间:2014-02-03 10:32:08

标签: c regex linux proc

我有一个小C代码转储进程内存然后尝试REGEX匹配一个字符串。如果我想转储进程但REGEX失败,或者我错误地搜索内存缓冲区,一切顺利。有什么想法吗?

#define _LARGEFILE64_SOURCE

#include <stdlib.h>
#include <stdio.h>
#include <sys/ptrace.h>
#include <unistd.h>
#include <fcntl.h>
#include <regex.h>

void dump_region(int fd, off64_t start, off64_t end)
{
        char buf[4096];
        int a, i;
        regex_t re;
        regmatch_t pm;

        a = regcomp(&re, "([0-9]{10,20})", REG_EXTENDED);

        if(a!=0)
            printf(" -> Error: Invalid Regex");

        lseek64(fd, start, SEEK_SET);
        while(start < end) {
         int rd;

         rd = read(fd, buf, 4096);
         //write(STDOUT_FILENO, buf, rd); // HERE dumping is OK
         a = regexec(&re, &buf[0], 1, &pm, REG_EXTENDED); // something I do wrong here
         if(a==0) {
             for(i = pm.rm_so; i < pm.rm_eo; i++)
                 printf("%c", buf[i]);
                 printf("\n");
         }
         start += 4096;
        }
}

int main(int argc, char *argv[])
{
        FILE *maps;
        int mem;
        pid_t pid;
        char path[BUFSIZ];

        if(argc < 2) {
         fprintf(stderr, "usage: %s pid\n", argv[0]);
         return EXIT_FAILURE;
        }

        pid = strtol(argv[1], NULL, 10);
        if(ptrace(PTRACE_ATTACH, pid, NULL, NULL) == -1) {
         perror("ptrace");
         return EXIT_FAILURE;
        }

        snprintf(path, sizeof(path), "/proc/%d/maps", pid);
        maps = fopen(path, "r");

        snprintf(path, sizeof(path), "/proc/%d/mem", pid);
        mem = open(path, O_RDONLY);

        if(maps && mem != -1) {
         char buf[BUFSIZ + 1];

         while(fgets(buf, BUFSIZ, maps)) {
                off64_t start, end;

                sscanf(buf, "%llx-%llx", &start, &end);
                dump_region(mem, start, end);
         }
        }

        ptrace(PTRACE_DETACH, pid, NULL, NULL);
        if(mem != -1)
         close(mem);
        if(maps)
         fclose(maps);

        return EXIT_SUCCESS;
}

编辑:

尝试了另一个版本,仍然出现问题或者我错过的东西......

#define _LARGEFILE64_SOURCE

#include <stdlib.h>
#include <stdio.h>
#include <sys/ptrace.h>
#include <unistd.h>
#include <fcntl.h>
#include <regex.h>

void dump_region(int fd, off64_t start, off64_t end)
{
        char buf[4096];
        int status,i;
        int cflags = REG_EXTENDED;
        regmatch_t pmatch[1];
        const size_t nmatch=1;
        regex_t reg;
        const char *pattern="([0-9]{10,20})";

        regcomp(&reg, pattern, cflags);

        lseek64(fd, start, SEEK_SET);
        while(start < end) {
                int rd;

                rd = read(fd, buf, sizeof buf - 1);
                if(rd > 0)
                {
                  buf[rd] = '\0';
                  status = regexec(&reg, buf, nmatch, pmatch, 0);
                  if(status == REG_NOMATCH)
                        printf("No Match\n");
                  else if(status == 0){
                        printf("Match:\n");
                        for (i=pmatch[0].rm_so; i<pmatch[0].rm_eo; ++i) {
                                putchar(buf[i]);
                        }
                        printf("\n");
                  }
                  regfree(&reg);
                  return;
                }
                start += 4096;
        }
}

int main(int argc, char *argv[])
{
        FILE *maps;
        int mem;
        pid_t pid;
        char path[BUFSIZ];

        if(argc < 2) {
                fprintf(stderr, "usage: %s pid\n", argv[0]);
                return EXIT_FAILURE;
        }

        pid = strtol(argv[1], NULL, 10);
        if(ptrace(PTRACE_ATTACH, pid, NULL, NULL) == -1) {
                perror("ptrace");
                return EXIT_FAILURE;
        }

        snprintf(path, sizeof(path), "/proc/%d/maps", pid);
        maps = fopen(path, "r");

        snprintf(path, sizeof(path), "/proc/%d/mem", pid);
        mem = open(path, O_RDONLY);

        if(maps && mem != -1) {
                char buf[BUFSIZ + 1];

                while(fgets(buf, BUFSIZ, maps)) {
                        off64_t start, end;

                        sscanf(buf, "%llx-%llx", &start, &end);
                        dump_region(mem, start, end);
                }
        }

        ptrace(PTRACE_DETACH, pid, NULL, NULL);
        if(mem != -1)
                close(mem);
        if(maps)
                fclose(maps);

        return EXIT_SUCCESS;
}

有任何帮助吗?想法?

更新。似乎第二个版本部分有效但是从我从转储的内存文件中获得1193的大约egrep个匹配项我得到的代码只有两个。有什么想法吗?

1 个答案:

答案 0 :(得分:1)

无法保证传递给regexec()的缓冲区是有效字符串,应该是。 The manual page for regexec()将函数描述为:

  

regexec()用于将以null结尾的字符串与预编译的模式缓冲区匹配[...]

因此,您必须通过执行以下操作来确保搜索的数据是正确的字符串:

rd = read(fd, buf, sizeof buf - 1);
if(rd > 0)
{
  buf[rd] = '\0';
  a = regexec(&re, buf, 1, &pm, REG_EXTENDED);
  /* ... rest of code ... */
}  

rd< 0时,这也可以防止读取错误。

作为一般说明,要意识到“流式传输”正则表达式匹配器通常不是一件容易的事。如果RE匹配跨越你的读缓冲区大小怎么办?然后你可能会错过匹配,因为你只允许匹配器在实际数据中看到不相交的“窗口”。

另外,正如@xtmtrx's评论中指出的那样,您正在阅读的数据不是文本,而是二进制文件。这意味着它通常会包含许多“奇怪”值,例如嵌入的0字节,它们将(regexec())视为字符串终止符。如果其中一个出现在您在一个块中查找的某些数据之前,那么您将错过数据,因为regexec()将不会读取超过字符串结尾的数据。

一种解决方案是在尝试匹配之前过滤掉非文本数据,例如使用循环和isprint()