我将在某些背景下提及这个问题:
Regular expression for a string literal in flex/lex
我遇到的问题是在我的词法分析器中使用转义字符处理输入,我认为这可能与字符串的编码有关,但我不确定。
以下是我在lexer中处理字符串文字的方法:
\"(\\.|[^\\"])*\"
{
char* text1 = strndup(yytext + 1, strlen(yytext) - 2);
char* text2 = "text\n";
printf("value = <%s> <%x>\n", text1, text1);
printf("value = <%s> <%x>\n", text2, text2);
}
这输出以下内容:
value = <text\n"> <15a1bb0>
value = <text
> <7ac871>
似乎将换行符分别视为反斜杠后跟n。
这里发生了什么,如何处理文本与C输入相同?
答案 0 :(得分:11)
你的正则表达式只匹配字符串\ escapes - 它实际上并没有将它们转换成它们代表的字符。我更喜欢使用flex start状态和可以累积字符的字符串构建缓冲区来处理这类事情。类似的东西:
%{
static StringBuffer strbuf;
%}
%x string
%%
\" { BEGIN string; ClearBuffer(strbuf); }
<string>[^\\"\n]* { AppendBufferString(strbuf, yytext); }
<string>\\n { AppendBufferChar(strbuf, '\n'); }
<string>\\t { AppendBufferChar(strbuf, '\t'); }
<string>\\[0-7]* { AppendBufferChar(strbuf, strtol(yytext+1, 0, 8)); }
<string>\\[\\"] { AppendBufferChar(strbuf, yytext[1]); }
<string>\" { yylval.str = strdup(BufferData(strbuf)); BEGIN 0; return STRING; }
<string>\\. { error("bogus escape '%s' in string\n", yytext); }
<string>\n { error("newline in string\n"); }
这使得更清晰,更容易为新的转义添加新的转义处理代码,并且当出现问题时可以轻松发出明确的错误消息。