逃避字符语法

时间:2012-09-24 16:47:59

标签: bison flex-lexer parser-generator jison

我想为标记语言创建一个Jison(Bison)语法,允许转义标记分隔符。

这些是有效的:

I like apples
I like [apples, oranges, pears]
I like [apples, oranges, pears] and [peanut butter, jelly]
I like [apples, oranges, pears] \[when they're in season\]
I like emoticons :-\]

示例可能会被解释为以下(在JSON表示中):

["I like apples"]
["I like ", ["apples", "oranges", "pears"]]
["I like ", ["apples", "oranges", "pears"], " and ", ["peanut butter", "jelly"]]
["I like ", ["apples", "oranges", "pears"], " [when they're in season]"]
["I like emoticons :-]"]

[]\,的转义是最小的,但允许对任何可打印字符进行转义可能是有意义的,即使转义是不必要的。

如果不支持转义不可打印的字符,那就太好了。也就是说,一行末尾的\将是非法的。正则表达式.可能免费,因为它可能不包括换行符,但也应该对其他不可打印的字符也会发生。

很难谷歌这一点,因为在Bison定义等中有很多结果可以逃避文字字符。

用Bison定义的语言支持转义字符的最优雅方法是什么?

修改

这是我到目前为止所拥有的and can be tested on Jison,但它不起作用(如果有的话,只返回1)并且我不希望文本到达未转义 - 这需要一秒钟通过。这是可以避免的吗?

/* description: markup */

/* lexical grammar */
%lex
%%

(\\.|[^\\\[])+            return 'TOPTEXT'
(\\.|[^\\\[\]\,])+        return 'TEXT'
\-?[0-9]+("."[0-9]+)?\b   return 'NUMBER'
".."|"-"                  return '..'
"["                       return '['
"]"                       return ']'
","                       return ','
<<EOF>>                   return 'EOF'

/lex

%start markup

%%

markup
    : template EOF
        { return $template; }
    ;

template
    : template TOPTEXT
        { $$ = $template.push($TOPTEXT); }
    | template dynamic
        { $$ = $template.push($dynamic); }
    | /* empty */
        { $$ = []; }
    ;

dynamic
    : '[' phraselist ']'
        { $$ = $phraselist; }
    ;

phraselist
    : phraselist ',' phrase
        { $$ = $phraselist.push($phrase); }
    | /* empty */
        { $$ = []; }
    ;

phrase
    : TEXT
        { $$ = $phrase.push($TEXT); }
    | phrase dynamic
        { $$ = $phrase.push($dynamic); }
    | /* empty */
        { $$ = []; }
    ;

1 个答案:

答案 0 :(得分:2)

我认为您的代码存在多个问题。

第一个(这解释了1输出)是[].push返回列表的新长度,所以你想要的是推送,然后定义价值:

template
: template TOPTEXT
    { $template.push($TOPTEXT); $$ = $template; }
| template dynamic
    { $template.push($dynamic); $$ = $template; }
| /* empty */
    { $$ = []; }
;

另一件事是,似乎你正试图让太多东西同时工作,而不是真的确定你想要它们或者它们实际上按照它们应该的方式工作。

也许一个更好的策略是让你从小做起,让它在当时的工作中起作用,从基础开始。

例如,您可以首先确保lexer适用于每个案例,使用只打印出令牌的简单语法进行测试:

%lex
%%

(\\\\|\\\[|\\\]|\\\,|[^,\\\[\]])+   return 'TEXT'
\-?[0-9]+("."[0-9]+)?\b             return 'NUMBER'
".."|"-"                            return 'RANGE'
"["                                 return '['
"]"                                 return ']'
","                                 return ','

/lex

%start lexertest

%%

lexertest:
token lexertest
| /* empty */
;

token:
TEXT    { console.log("Token TEXT: |" + $TEXT +  "|"); }
|
NUMBER  { console.log("Token NUMBER: |" + $NUMBER +  "|"); }
|
'['     { console.log("Token ["); }
|
']'     { console.log("Token ]"); }
|
','     { console.log("Token ,"); }
|
'RANGE' { console.log("Token RANGE: |" + $1 +  "|"); }
;

注意:在浏览器中运行时,console.log输出仅在开发人员工具中。您可能会发现使用script like this (for Bash)在命令行中使用Jison可以更容易地使用多个输入进行测试。

然后你改进它,直到你对它满意为止。 在您对词法分析器满意后,您就开始使语法工作,再次测试一个规则。保留上述规则,只要您想调试词法分析器的输出,就可以更改%start规则。

最后,你可能会发现你从来没有首先需要EOF,也许你可能不需要两个不同的规则来匹配自由文本。

希望它有所帮助。