Question

我将在某些背景下提及这个问题：

Regular expression for a string literal in flex/lex

我遇到的问题是在我的词法分析器中使用转义字符处理输入，我认为这可能与字符串的编码有关，但我不确定。

以下是我在lexer中处理字符串文字的方法：

\"(\\.|[^\\"])*\"
{                   
    char* text1 = strndup(yytext + 1, strlen(yytext) - 2);
    char* text2 = "text\n";

    printf("value = <%s> <%x>\n", text1, text1);
    printf("value = <%s> <%x>\n", text2, text2);
}

这输出以下内容：

value = <text\n"> <15a1bb0>
value = <text
> <7ac871>

似乎将换行符分别视为反斜杠后跟n。

这里发生了什么，如何处理文本与C输入相同？

Answer 1

你的正则表达式只匹配字符串\ escapes - 它实际上并没有将它们转换成它们代表的字符。我更喜欢使用flex start状态和可以累积字符的字符串构建缓冲区来处理这类事情。类似的东西：

%{
static StringBuffer strbuf;
%}
%x string
%%

\"                  { BEGIN string; ClearBuffer(strbuf); }
<string>[^\\"\n]*   { AppendBufferString(strbuf, yytext); }
<string>\\n         { AppendBufferChar(strbuf, '\n'); }
<string>\\t         { AppendBufferChar(strbuf, '\t'); }
<string>\\[0-7]*    { AppendBufferChar(strbuf, strtol(yytext+1, 0, 8)); }
<string>\\[\\"]     { AppendBufferChar(strbuf, yytext[1]); }
<string>\"          { yylval.str = strdup(BufferData(strbuf)); BEGIN 0; return STRING; }
<string>\\.         { error("bogus escape '%s' in string\n", yytext); }
<string>\n          { error("newline in string\n"); }

这使得更清晰，更容易为新的转义添加新的转义处理代码，并且当出现问题时可以轻松发出明确的错误消息。

具有转义字符的Flex / Lex编码字符串

1 个答案: