从字符串中提取单词(单词之间用空格和制表符分隔,可能多个)

时间:2019-03-07 14:32:00

标签: c string file-io

我正在尝试用C语言创建一个程序,该程序从文件中读取输入,让它为Input.inp,其中包含带有用空格和制表符(可能是多个,可能是多个)分隔的单词的字符串,然后写入文件{ {1}},每个单词排成一行。例如,输入文件包含

Output.out

然后输出文件将如下所示

Hi  my name         is Yang

此外,如果到达文件末尾或到达“#”,程序将停止读取。

下面是我的代码。我从文件中获取了字符,然后检查它是否为“#”或文件结尾。如果不是,它将检查字符是空格,制表符还是行尾。如果不是,那么字符将被放入字符串“ word”。现在,如果我们到达空格,制表符或行尾,那么我将打印字符串“ word”,将Hi my name is Yang 设置回0并继续执行操作。但这是行不通的。有人可以解释为什么我的代码失败,并为我提供有关如何解决此问题的指导吗?

pos

2 个答案:

答案 0 :(得分:0)

关于您的建议的一些评论

如前言中所述,当您读取字符时,使用 int 而不是 char 来保存字符,可能是编译器警告您:表示由于数据类型范围有限,在while((ch = fgetc(fin)) != EOF上像 comparison之类的问题始终为真,这是因为 EOF 无法保存在 char < / em>。因此,在您的代码中, ch d 必须是 int

检查 fopen 的结果以确保打开文件。

最好加()以避免运算符之间的优先级问题,因此请替换

while((ch = fgetc(fin)) != EOF && ch != '#')

while(ch != ' ' && ch != '\t' && ch != '\0'){

if((d = fgetc(fin)) == ' ' || d == '\t' || d == '\0'){

if(ch == ' ' || ch == '\t' || ch == '\0')

通过(不考虑其他可能的问题)

while(((ch = fgetc(fin)) != EOF) && (ch != '#'))

while((ch != ' ') && (ch != '\t') && (ch != '\0')){

if(((d = fgetc(fin)) == ' ') || (d == '\t') || (d == '\0')){

if((ch == ' ') || (ch == '\t') || (ch == '\0'))

如前所述,如果您输入这两个时间段:

while((ch = fgetc(fin)) != EOF && ch != '#'){
   while(ch != ' ' && ch != '\t' && ch != '\0'){

您将永远无法出门,因为里面的 ch 保持不变,因此您用 word 编写了越来越多的文字,并最终以未定义的行为退出(通常是这样)崩溃)。

您不需要检查空字符的大小写,它在文本文件中不存在。

您错过了管理换行符('\ n'和'\ r')的情况

与问题无关,因为 ch 不变,所以您永远不会检查读取的单词是否太长而无法放入 word 中,因此您不能认为在任何情况下都可以。

if((d = fgetc(fin)) == ' ' || d == '\t' || d == '\0'){

您错过了管理换行符的大小写,而不必管理空字符的大小写。

if(ch == ' ' || ch == '\t' || ch == '\0') continue;

是无用的,它在while块的末尾,因此即使没有它,您也要重新循环


  

在C中创建一个程序,该程序从文件中读取输入,将其命名为Input.inp,其中包含带有用空格和制表符(可能是多个)分隔的单词的字符串,然后写入文件Output.out,每个单词都打开一条线。

您的程序也太复杂,您不需要将单词保存在内存中(这还有一个优点,就是可以管理长度超过299的单词),您的目标是将每个单词放在输出中的单独行上文件,因此一个简单的解决方案是:

#include <stdio.h>

int main()
{
  FILE *fin, *fout;

  if ((fin = fopen("splitwords.inp", "r")) == NULL)
    puts("cannot open splitwords.inp");
  else {
    if ((fout = fopen("splitwords.txt", "w"))  == NULL)
      puts("cannot open splitwords.txt");
    else {
      int word = 0; /* not inside a word */
      int c; /* an int to manage EOF */

      while (((c = fgetc(fin)) != EOF) && (c != '#')) {
        if ((c == ' ') || (c == '\t') ||
            (c == '\n') || (c == '\r')) { /* can use isspace() */
          if (word) {
            /* the space finishes a word, add the new line */
            fputc('\n', fout);
            word = 0; /* not in a word now */
          }
        }
        else {
          fputc(c, fout); /* char of word are placed in output file */
          word = 1; /* we are in a word */
        }
      }

      if (word) {
        /* we was reading a word, need to add the final newline */
        fputc('\n', fout);
      }

      fclose(fout);
    }

    fclose(fin);
  }
}

编译和执行:

/tmp % gcc -pedantic -Wextra f.c
/tmp % cat splitwords.inp
Hi  my name         is Yang
/tmp % ./a.out
/tmp % cat splitwords.txt 
Hi
my
name
is
Yang

一些说明和评论:

  • 打开文件后,我检查结果以确保 fopen 成功
  • 当我读一个字符时,我不会将其保存在 char 中,而是保存在 int 中,以处理EOF的情况。
  • 在上面的代码中,我比较了空格和制表符等,以使您轻松地了解自己的工作,但是有一个lib函数可以完美地做到这一点: isspace 可以查看它和其他有用的功能( em> isalpha isdigit ...)。您可以更改相应的行以添加其他任何字符作为分隔符,例如'-'或标点符号(','';')等

上面的代码只是在输出文件中写入了非空格/ tab /换行符,更多的只是需要检测单词的结尾以添加换行符,这就是我的变量 word的目标在先前管理的字符不是空格/制表符/换行符时为1,否则为0

答案 1 :(得分:-1)

嗯,我对此有很多错误并添加了我的评论:

    while(ch != EOF && ch != '#') {
            word[pos] = ch;
            pos++;
            if(ch == ' ' || ch == '\t' || ch == '\0') {
                word[pos] = '\0';
                fputs(word, fout);
                printf("%s\n", word);
                memset(word, '\0', maxn); //flush word
                pos = 0;

                while (ch == ' ' || ch == '\t' || ch == '\0') { // handle multiple whitespaces
                    ch = fgetc(fin);
                }
            } else {
                ch = fgetc(fin);
            }
    }

可以,但是:
1.检查pos < maxn,因为可能是内存故障。
2.创建函数bool isWhitespace(char c);,因为带有或的多次使用条件很丑。
3.检查文件fin != NULL && fout != NULL

是否正确打开