Lex:标识符与整数

时间:2013-10-09 17:32:20

标签: c regex lex

我正在尝试创建自己的简单编程语言。为此我需要在Lex中插入一些正则表达式。 我正在使用以下正则表达式来匹配标识符和整数。

[a-zA-Z][a-zA-Z0-9]* /* identifier */ return IDENTIFIER;
("+"|"-")?[0-9]+ /* integer */ return INTEGER;

现在我检查一个非法的标识符,如:

0a = 1;

前导零被识别为整数,后跟被识别为标识符的“a”。而不是这个我希望这个标记'0a'被识别为非法字符。 如何包含此功能?我必须调整什么样的正则表达式?

1 个答案:

答案 0 :(得分:3)

在(F)lex中执行此操作的最简单方法是为错误创建第二个模式:

[[:alpha:]][[:alnum:]]*  return IDENTIFIER;
[+-]?[[:digit:]]+        return INTEGER;
[+-]?[[:digit:]]+[[:alpha:]]   {
                           fprintf(stderr,
                                   "Incorrect integer '%s' in line %d\n",
                                   yytext, yylineno);
                           return ERROR;
                         }

第三条规则将匹配紧跟在后面的字母的任何整数,并将发出词汇错误信号。 (我假设您已启用%option yylineno。如果没有,则会始终在第0行报告错误。)

另一种方法可能是继续进行词法扫描。在这种情况下,您可能希望重新扫描违规的字母字符。最简单的方法是在Flex中使用它(特殊的)trailing context运算符/

[[:alpha:]][[:alnum:]]*  return IDENTIFIER;
[+-]?[[:digit:]]+        return INTEGER;
[+-]?[[:digit:]]+/[[:alpha:]]   {
                           fprintf(stderr, 
                                   "Warning: Incorrect integer '%s' in line %d\n",
                                   yytext, yylineno);
                           return INTEGER;
                         }

现在第三条规则将完全匹配相同的东西,但在匹配之后,它将返回到数字的末尾,以便下一个lexeme将以字母字符开头。

您也可以使用yyless()宏执行此操作:

  

yyless(n)将当前令牌的第一个n字符返回给输入流...

所以你可以使用:

[[:alpha:]][[:alnum:]]*  return IDENTIFIER;
[+-]?[[:digit:]]+        return INTEGER;
[+-]?[[:digit:]]+[[:alpha:]]   {
                           fprintf(stderr, 
                                   "Warning: Incorrect integer '%s' in line %d\n",
                                   yytext, yylineno);
                           yyless(yyleng - 1);
                           return INTEGER;
                         }

最后,正如@CharlieBurns在评论中指出的那样,你可以让词法分析器向解析器返回两个标记(一个数字和一个标识符),如果该序列在语言中是非法的,它将识别语法错误。在许多编程语言中,没有语法程序可以包含一个整数,后面紧跟一个标识符,中间没有标点符号。

然而,在许多其他语言中,这种组合是完全合理的,特别是在像Lua这样没有明确的语句结束指示符的语言中,所以

 b = 3 a = 4

是一个由两个赋值语句组成的有效程序。另一个例子,在Awk字符串连接中没有运算符表示,如果需要,数字会自动强制转换为字符串,所以

print 3 a

将打印"3"a的值的串联。在上面的例子中,Lua坚持使用空格; Awk没有。

而且,最终,C(++)认为3a是一个单一的标记,一个“预处理数字”。如果令牌实际通过预处理器,则会标记错误,但以下程序没有语法错误:

#define NOTHING(x)
NOTHING(3a)

作为一个可能更有趣的例子:

#define CONCAT2(a,b) a##b
#define CONCAT(a,b) CONCAT2(a,b)
static const int the_answer = CONCAT(0x, 2a);

所以没有“一个答案适合所有人”。