Question

我正在学习编译器构建课程，目前的任务是为我们正在实现的语言编写词法分析器。我无法弄清楚如何满足词法分析器必须识别连接标记的要求。也就是说，令牌没有被空格分隔。例如：字符串39if应该被识别为数字39和关键字if。同时，词法分析器在遇到无效输入时也必须exit(1)。

我的代码的简化版本：

%{
#include <stdio.h>
%}

%option main warn debug

%%

if      |
then    |
else    printf("keyword: %s\n", yytext);

[[:digit:]]+    printf("number: %s\n", yytext);

[[:alpha:]][[:alnum:]]*     printf("identifier: %s\n", yytext);

[[:space:]]+    // skip whitespace
[[:^space:]]+   { printf("ERROR: %s\n", yytext); exit(1); }

%%

当我运行此（或我的完整版本）并将输入39if传递给它时，错误规则匹配，输出为ERROR: 39if，当我希望它为：< / p>

number: 39
keyword: if

（即，我输入39 if作为输入。）

Going by the manual，我有一个预感，原因是错误规则与数字和关键字规则匹配的输入时间更长，而flex会更喜欢它。那就是说，我不知道如何解决这种情况。编写一个拒绝所有非错误输入的显式正则表达似乎是不可行的，我不知道如何为了处理词法错误而编写“全能”规则。

更新：我想我可以让catch-all规则为. { exit(1); }，但我希望得到一些比“我在第1行感到困惑”更好的调试输出。

Answer 1

你是完全正确的，你应该只匹配一个“任何”字符作为后备。获取有关解析所在行的位置信息的“标准”方法是使用--bison-bridge选项，但这可能有点痛苦，特别是如果您不使用bison 。还有很多其他方法 - 例如，在手册中查找指定自己的i / o函数的方法 - 但是最简单的恕我直言是使用开始条件：

%x LEXING_ERROR
%%
// all your rules; the following *must* be at the end
.                 { BEGIN(LEXING_ERROR); yyless(1); }
<LEXING_ERROR>.+  { fprintf(stderr,
                            "Invalid character '%c' found at line %d,"
                            " just before '%s'\n",
                            *yytext, yylineno, yytext+1);
                    exit(1);
                  }

注意：确保您已忽略规则中的空格。模式.+匹配任何数字，但至少有一个非换行符，或者换句话说，直到当前行的末尾（它将强制flex读取那么远，这应该不是问题）。 yyless(n)以n个字符备份读指针，因此在.规则匹配后，它将重新扫描该字符（希望）产生一个半合理的错误消息。（如果您的输入是多字节的，或者具有奇怪的控制字符，那将是不合理的，因此您可以编写更仔细的代码。由您决定。如果错误位于一行的末尾也可能不合理，所以你可能还想写一个更小心的正则表达式来获取更多的上下文，甚至可能限制读取前向字符的数量。这里有很多选项。）

在弹性手册中查找start conditions，了解有关%x和BEGIN

的更多信息

如何使lex / flex识别不被空格分隔的标记？

1 个答案: