读取以逗号分隔的一串数字

时间:2017-03-13 09:38:37

标签: c string algorithm error-handling comma

我正在编写一个应该读取一串数字的函数,用逗号分隔。字符串的格式如下:

"1, 2, 3"

唯一的“规则”是该函数将容忍任何空格或制表符,只要每个数字之间有一个逗号即可。

如果字符串有效,则数字将存储在链表中。

例如,

以下字符串有效

"1,2,14,2,80"
"  250  ,  1,  88"

但以下无效

" 5, 1, 3 ,"
"51, 60, 5,,9"

我首先尝试使用strtok()运行(使用分隔符“,\ t”,但是从我现在所理解的情况来看,检查错误是不可能的。所以我编写了自己的函数,但我非常不满意有了它 - 我认为代码非常糟糕,虽然它似乎有用,但我真的很想知道是否有更简洁,更简单的方法来实现这样的功能。

我的功能是:

void sliceNumbers(char * string)
{
  /*flag which marks if we're expecting a comma or not*/
  int comma = FALSE;
  /*Are we inside a number?*/
  int nFlag = TRUE;
  /*error flag*/
  int error = FALSE;
  /*pointer to string start*/
  char * pStart = string;
  /*pointer to string end*/
  char * pEnd = pStart;

  /*if received string is null*/
  if (!string)
  {
    /*add error and exit function*/
    printf("You must specify numbers");
    return;
  }
  /*this loop checks if all characters in the string are legal*/
  while (*pStart != '\0')
  {
    if ((isdigit(*pStart)) || (*pStart == ',') || (*pStart == ' ') || (*pStart == '\t'))
    {
      pStart++;
    }
    else
    {
      char tmp[2];
      tmp[0] = *pStart;
      tmp[1] = 0;
      printf("Invalid character");
      error = TRUE;
      pStart++;
    }
  }
  if (!error)
  {
    pStart = string;
    if (*pStart == ',')
    {
    printf("Cannot start data list with a comma");
    return;
    }
    pEnd = pStart;
    while (*pEnd != '\0')
    {
      if (comma)
      {
        if (*pEnd == ',')
        {
          if (!nFlag)
          {

          }
          if (*(pEnd + 1) == '\0')
          {
            printf("Too many commas");
            return;
          }
          *pEnd = '\0';
          /*Add the number to the linked list*/
          addNumber(pStart, line, DC);
          comma = FALSE;
          nFlag = FALSE;
          pStart = pEnd;
          pStart++;
          pEnd = pStart;
        }
        else if (isdigit(*pEnd))
        {
          if (!nFlag)
          {
            printf("numbers must be seperated by commas");
            pEnd++;
          }
          else
          {
            if (*(pEnd + 1) == '\0')
            {
              pEnd++;
              /*Add the number to the linked list*/
              addNumber(pStart);
              comma = FALSE;
              nFlag = FALSE;
              pStart = pEnd;
              pStart++;
              pEnd = pStart;
            }
            else
            {
              pEnd++;
            }
          }
        }
        else if (*pEnd == '\0')
        {
          if (nFlag)
          {
            /*Add the number to the linked list*/
            addNumber(pStart, line, DC);
          }
          else
          {
            printf("Too many commas");
          }

        }
        else if (*pEnd == ' ' || *pEnd == '\t')
        {
          nFlag = FALSE;
          pEnd++;
        }
      }
      else
      {
        if (*pEnd == ',')
        {
          printf("There must be only 1 comma between numbers");
          return;

        }
        else if (isdigit(*pEnd))
        {
          if (*(pEnd + 1) == '\0')
          {
            pEnd++;
            /*Add the number to the linked list*/
            addnumber(pStart, line, DC);
            comma = FALSE;
            nFlag = FALSE;
            pStart = pEnd;
            pStart++;
            pEnd = pStart;
          }
          else
          {
            pStart = pEnd;
            pEnd++;
            nFlag = TRUE;
            comma = TRUE;
          }
        }
        else if (*pEnd == ' ' || *pEnd == '\t')
        {
          if (!nFlag)
          {
            pEnd++;
          }
          else
          {
            pEnd++;
          }
        }
      }
    }
  }
}

4 个答案:

答案 0 :(得分:3)

您已经定义了许多布尔值(尽管您已将它们声明为int),以跟踪当前状态。您可以将这些变量合并到一个state变量中,使用#define来定义可能的值:

#define STATE_START 0
#define STATE_IN_NUMBER 1
#define STATE_COMMA 2
#define STATE_FINISHED 3
#define STATE_ERROR 4

int state = STATE_START;

您可以绘制一个图表(有点像流程图),显示每个角色如何将我们从一个状态移动到另一个状态。

enter image description here

(对于我的图像,我保持简单,只显示没有空格的输入的非错误状态)

或者只是用文字说:

current state   | input     | next state| side effect
-----------------------------------------------------------------------
START           | digit     | IN_NUMBER | start storing a number
START           | other     | ERROR     | 
IN_NUMBER       | digit     | IN_NUMBER | continue storing a number
IN_NUMBER       | comma     | COMMA     | complete storing a number
IN_NUMBER       | null      | FINISHED  | finalise output
IN_NUMBER       | other     | ERROR     | report error
COMMA           | digit     | IN_NUMBER | start storing a number
COMMA           | comma     | ERROR     |
COMMA           | other     | ERROR     |

(对于我的表格,我添加了基本的错误状态,但仍然没有占空白)

您需要添加更多状态和转换来处理空格和制表符,但原则并未改变。我建议从一个没有空格的实现开始,然后添加它。

这允许您编写有限状态机,其中一个实现如下所示:

int state = STATE_START;
while(state != STATE_FINISHED && state != STATE_ERROR) {
    char c = input[offset++];
    switch(state) {
        case STATE_START:
            state = handleStateStart(...);
            break;
        case STATE_IN_NUMBER:
            state = handleInNumber(...);
            break;
        // etc.
        default:
            sprintf(error_message, "Reached unsupported state: %c", state);
            state = STATE_ERROR;
    }
}

处理函数的参数需要传入它将要读取和修改的数据结构。例如:

int handleStateStart(
    char c,
    int* current_number,
    char *error_message) 
{
    if( ! isDigit(c)) {
        sprintf(error_message, "Expected a digit at char %d", *offset);
        return STATE_ERROR;
    }
    *current_number = atoi(c);
    return STATE_IN_NUMBER;
}

(这是一种易于理解的实现状态机的方法,但还有其他方法可以实现:Is there a typical state machine implementation pattern?

您的CSV解析问题非常适合状态机,并且生成的代码将非常整洁。状态机用于更复杂的解析任务,并且在编译器之类的东西中被大量使用。在你的学习后期,你将遇到正则表达式 - 正式地,正则表达式是表达消耗字符的有限状态机的一种紧凑方式。

答案 1 :(得分:1)

strtok()是正确的方法。但仅将","(逗号)作为分隔符传递。您可以将结果字符串检查为零长度(strlen(tok)==0),这意味着您有两个连续的','。检查完毕后,您只需修剪结果即可。即正如here所述。

答案 2 :(得分:0)

您可以使用正则表达式lib

1)验证字符串

<a href="#"  onclick="openInAppBrowser('https://docs.google.com/drawings/d/1ERKvXXUHZHYAA9JLoOz4aau7Y0rTc14h2HucC0CulAM/edit?usp=drive_web');">

其中
[^\d, ]|,[[:blank:]]+,|,{2,} - 找到除数字,逗号和空格之外的所有符号     [^\d, ] - 使用空格和标签验证字符串2或更多逗号,逗号之间没有数字

2)流程编号

,[[:blank:]]+,|,{2,}

您可以在线试用here

答案 3 :(得分:0)

一种非常有效的直接方法:

  1. 一次删除所有空格和制表符。您可以通过这样做来避免空间开销。
  2. 阅读数字流并继续将它们添加到链接列表中。如果检测到任何无效的数字,例如长度为0,则只返回一个NULL指针,从而停止进一步处理。
  3. 如果第2次传递成功完成,则返回该链接列表的头部指针。