我的语法在许多终端规则的开头使用$
字符,例如$video{
,$audio{
,$image{
,$link{
和其他就像这样。
但是,我还希望匹配与这些规则不匹配的所有$
和{
以及}
字符。例如,我的语法与 CHUNK 规则中的$100
不匹配,而是将$
添加到 CHUNK 中可接受字符的长列表中导致其他生产规则中断。
如何更改语法,以便将正常的$,{和}字符与我的特殊制作规则区分开来?
基本上我能做的就是说,“如果$字符没有{,视频,图像,音频,链接等等,那么它应该去CHUNK”。
grammar Text;
@header {
}
@lexer::members {
private boolean readLabel = false;
private boolean readUrl = false;
}
@members {
private int numberOfVideos = 0;
private int numberOfAudios = 0;
private StringBuilder builder = new StringBuilder();
public String getResult() {
return builder.toString();
}
}
text
: expression*
;
expression
: fillInTheBlank
{
builder.append($fillInTheBlank.value);
}
| image
{
builder.append($image.value);
}
| video
{
builder.append($video.value);
}
| audio
{
builder.append($audio.value);
}
| link
{
builder.append($link.value);
}
| everythingElse
{
builder.append($everythingElse.value);
}
;
fillInTheBlank returns [String value]
: BEGIN_INPUT LABEL END_COMMAND
{
$value = "<input type=\"text\" id=\"" +
$LABEL.text +
"\" name=\"" +
$LABEL.text +
"\" class=\"FillInTheBlankAnswer\" />";
}
;
image returns [String value]
: BEGIN_IMAGE URL END_COMMAND
{
$value = "<img src=\"" + $URL.text + "\" />";
}
;
video returns [String value]
: BEGIN_VIDEO URL END_COMMAND
{
numberOfVideos++;
StringBuilder b = new StringBuilder();
b.append("<div id=\"video1\">Loading the player ...</div>\r\n");
b.append("<script type=\"text/javascript\">\r\n");
b.append("\tjwplayer(\"video" + numberOfVideos + "\").setup({\r\n");
b.append("\t\tflashplayer: \"/trainingdividend/js/jwplayer/player.swf\", file: \"");
b.append($URL.text);
b.append("\"\r\n\t});\r\n");
b.append("</script>\r\n");
$value = b.toString();
}
;
audio returns [String value]
: BEGIN_AUDIO URL END_COMMAND
{
numberOfAudios++;
StringBuilder b = new StringBuilder();
b.append("<p id=\"audioplayer_");
b.append(numberOfAudios);
b.append("\">Alternative content</p>\r\n");
b.append("<script type=\"text/javascript\">\r\n");
b.append("\tAudioPlayer.embed(\"audioplayer_");
b.append(numberOfAudios);
b.append("\", {soundFile: \"");
b.append($URL.text);
b.append("\"});\r\n");
b.append("</script>\r\n");
$value = b.toString();
}
;
link returns [String value]
: BEGIN_LINK URL END_COMMAND
{
$value = "<a href=\"" + $URL.text + "\">" + $URL.text + "</a>";
}
;
everythingElse returns [String value]
: CHUNK
{
$value = $CHUNK.text;
}
;
BEGIN_INPUT
: '${'
{
readLabel = true;
}
;
BEGIN_IMAGE
: '$image{'
{
readUrl = true;
}
;
BEGIN_VIDEO
: '$video{'
{
readUrl = true;
}
;
BEGIN_AUDIO
: '$audio{'
{
readUrl = true;
}
;
BEGIN_LINK
: '$link{'
{
readUrl = true;
}
;
END_COMMAND
: { readLabel || readUrl }?=> '}'
{
readLabel = false;
readUrl = false;
}
;
URL
: { readUrl }?=> 'http://' ('a'..'z'|'A'..'Z'|'0'..'9'|'.'|'/'|'-'|'_'|'%'|'&'|'?'|':')+
;
LABEL
: { readLabel }?=> ('a'..'z'|'A'..'Z') ('a'..'z'|'A'..'Z'|'0'..'9')*
;
CHUNK
//: (~('${'|'$video{'|'$image{'|'$audio{'))+
: ('a'..'z'|'A'..'Z'|'0'..'9'|' '|'\t'|'\n'|'\r'|'-'|','|'.'|'?'|'\''|':'|'\"'|'>'|'<'|'/'|'_'|'='|';'|'('|')'|'&'|'!'|'#'|'%'|'*')+
;
答案 0 :(得分:1)
你不能否定一个以上的角色。因此,以下内容无效:
~('${')
但为什么不简单地将'$'
,'{'
和'}'
添加到您的CHUNK
规则并删除+
CHUNK
规则的结尾(否则它会吞噬很多,可能会在源代码中'$video{'
,因为你已经注意到了自己)?
现在CHUNK
令牌总是由一个字符组成,但您可以创建一个生产规则来解决此问题:
chunk
: CHUNK+
;
并在您的制作规则中使用chunk
而不是CHUNK
(或者当然使用CHUNK+
)。
"{ } $foo $video{"
之类的输入将被标记为如下:
CHUNK { CHUNK CHUNK } CHUNK CHUNK $ CHUNK f CHUNK o CHUNK o CHUNK BEGIN_VIDEO $video{
如果你让你的解析器输出一个AST,你可以很容易地将一个或多个CHUNK
匹配的所有文本合并到一个AST中,其内部标记的类型为CHUNK
,就像这样:
grammar Text;
options {
output=AST;
}
...
chunk
: CHUNK+ -> {new CommonTree(new CommonToken(CHUNK, $text))}
;
...
答案 1 :(得分:0)
另一种不会生成许多单字符标记的解决方案是允许块仅包含$符号作为第一个字符。这样,您的输入数据将仅以美元符号分割。
您可以通过引入片段词法分析器规则(即,不定义令牌本身但可以在其他令牌正则表达式中使用的规则)来实现此目的:
fragment CHUNKBODY
: 'a'..'z'|'A'..'Z'|'0'..'9'|' '|'\t'|'\n'|'\r'|'-'|','|'.'|'?'|'\''|':'|'\"'|'>'|'<'|'/'|'_'|'='|';'|'('|')'|'&'|'!'|'#'|'%'|'*';
CHUNK规则如下:
CHUNK
: { !readLabel && !readUrl }?=> (CHUNKBODY|'$')CHUNKBODY*
;
这似乎对我有用。