在C中的strstr之前和之后获取文本

时间:2018-11-30 16:28:27

标签: c string char strstr

我需要能够提取子字符串之前和之后的字符,目前我有以下代码:

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

int main(int argc, char *argv[]){

   char *text = (char *) malloc (10000000);
   char *word = argv[1];
   int rep;

   FILE *f;

   if(argc < 2)
   {
       printf("Usage: GET <website> | ./word_counter <word>\n");
       exit(1);
   }

   fread(text, 100, 10000000, stdin);

   const char *tmp = text;

   f = fopen("output.txt", "w");
   fprintf(f, "%s\n", "REPS");

   while(tmp = strstr(tmp, word)){
      printf("%.50s\n", tmp);
      rep++;
      tmp++;
   }

   printf("Word count: %d\n", rep);
   fclose(f);
   system("gedit output.txt");

   return 0;
}

我制作了原始输入的副本,因此可以保持原样并从中获取“之前”字符。

在tmp(原始输入副本)上使用strstr()可以找到要查找的单词的实例,并打印前50个字符。但是知道这一点后,如何在此实例之前访问50个字符?

任何帮助将不胜感激。谢谢!

1 个答案:

答案 0 :(得分:0)

除了打印问题本身之外,您的代码中还存在一些错误。我已经纠正了大多数问题;简短列表是:

  1. 始终测试malloc是否成功。
  2. fread(text, 100, 10000000, ..)读取太多文本。 100 * 10000000 = 1000000000,几乎是整个GB。您只分配了10 Mb的足够内存。
  3. 您从文本文件读取并将此数据视为字符串。因此,必须确保数据以0结尾,否则printfstrstr之类的函数将尝试在结束后继续读取。
  4. 您的rep变量开始时未初始化,因此您将始终看到一个随机数。
  5. 始终释放您分配的内存。

也就是说,使用专用功能打印文本会稍微有效率-如果只是不要在您的main中放太多。并且由于它是一个函数,因此您可以根据需要向其添加尽可能多的有用参数。我添加了beforeafter变量,因此您可以更改显示的字符数。

为增加趣味性,当在最少before个字符之前找到该短语时,此函数将打印正确数量的空格,因此,结果可以很好地对齐。另外,由于打印出诸如tab和换行符之类的字符会使您的输出混乱,因此我将其替换为?

诚然,print_range中有一些重复,但是在这种情况下,我只是为了清楚而非简洁。

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

#define MAX_LENGTH  10000000

void print_range (char *source_text, int startindex, int before, int after, int phrase_length)
{
    int i;

    if (before > startindex)
    {
        for (i=0; i<before-startindex; i++)
            printf (" ");
        startindex = before;
    }

    for (i=0; i<before; i++)
    {
        if (strchr ("\t\r\n", source_text[startindex-before+i]))
            printf ("?");
        else
            printf ("%c", source_text[startindex-before+i]);
    }
    for (i=0; i<phrase_length; i++)
    {
        if (strchr ("\t\r\n", source_text[startindex+i]))
            printf ("?");
        else
            printf ("%c", source_text[startindex+i]);
    }
    for (i=0; i<after; i++)
    {
        if (!source_text[startindex+phrase_length+i])
            break;
        if (strchr ("\t\r\n", source_text[startindex+phrase_length+i]))
            printf ("?");
        else
            printf ("%c", source_text[startindex+phrase_length+i]);
    }
    printf ("\n");
}

int main (int argc, char *argv[]){

    char *text = (char *) malloc (MAX_LENGTH);
    char *word = argv[1];
    int rep = 0;

    if (!text)
        return -1;

    if(argc < 2)
    {
         printf("Usage: GET <website> | ./word_counter <word>\n");
         exit(1);
    }

    fread(text, 1, MAX_LENGTH, stdin);
    text[MAX_LENGTH] = 0;

    const char *tmp = text;

    do
    {
        tmp = strstr(tmp, word);
        if (!tmp)
            break;
        print_range (text, tmp-text, 16,16, strlen(word));
        rep++;
        tmp++;
    } while (1);

    free (text);

    printf ("Word count: %d\n", rep);

    return 0;
}

在自己的源代码上运行它的结果:

~/Documents $ ./wordcounter printf < wordcounter.c
tindex; i++)????printf (" ");???starti
-before+i]))????printf ("?");???else??
"?");???else????printf ("%c", source_t
before+i]);??}??printf ("{");??for (i=
rtindex+i]))????printf ("?");???else??
"?");???else????printf ("%c", source_t
tindex+i]);??}??printf ("}");??for (i=
_length+i]))????printf ("?");???else??
"?");???else????printf ("%c", source_t
length+i]);??}??printf ("\n");?}??int 
argc < 2)??{??? printf("Usage: GET <we
?free (text);???printf ("Word count: %
Word count: 12