解析键值IPV6对

时间:2018-03-15 06:22:46

标签: antlr4

我有以下输入格式IP:FE80:CD00 :: 211E:729C来解析。

解析后,我希望Key为IP:和值为FE80:CD00 :: 211E:729C

我定义了以下语法

grammar IPV6;
keyValue  : KEY ip_v6_address;

ip_v6_address
 : h16 ':' h16 ':' h16 ':' h16 ':' h16 ':' h16 ':' ls32
 | '::' h16 ':' h16 ':' h16 ':' h16 ':' h16 ':' ls32
 | h16? '::' h16 ':' h16 ':' h16 ':' h16 ':' ls32
 | ((h16 ':')? h16)? '::' h16 ':' h16 ':' h16 ':' ls32
 | (((h16 ':')? h16 ':')? h16)? '::' h16 ':' h16 ':' ls32
 | ((((h16 ':')? h16 ':')? h16 ':')? h16)? '::' h16 ':' ls32
 | (((((h16 ':')? h16 ':')? h16 ':')? h16 ':')? h16)? '::' ls32
 | ((((((h16 ':')? h16 ':')? h16 ':')? h16 ':')? h16 ':')? h16)? '::' h16
;

h16
 : hexdig hexdig hexdig hexdig
 | hexdig hexdig hexdig
 | hexdig hexdig
 | hexdig
;

hexdig
 : digit
 | (A | B | C | D | E | F)
;

ls32
 : h16 ':' h16
 | ip_v4_address
;

ip_v4_address
 : dec_octet '.' dec_octet '.' dec_octet '.' dec_octet
;

dec_octet
 : digit
 | non_zero_digit digit
 | D1 digit digit
 | D2 (D0 | D1 | D2 | D3 | D4) digit
 | D2 D5 (D0 | D1 | D2 | D3 | D4 | D5)
;

digit
 : D0
 | non_zero_digit
;

non_zero_digit
 : D1
 | D2
 | D3
 | D4
 | D5
 | D6
 | D7
 | D8
 | D9
;

D0 : '0';
D1 : '1';
D2 : '2';
D3 : '3';
D4 : '4';
D5 : '5';
D6 : '6';
D7 : '7';
D8 : '8';
D9 : '9';

A : 'a'|'A';
B : 'b'|'B';
C : 'c'|'C';
D : 'd'|'D';
E : 'e'|'E';
F : 'f'|'F';

KEY: '['? STRING SPACE* STRING']'?':';

fragment SPACE : ' ';
fragment STRING: [a-zA-Z0-9/._-]+;
WS  : [ \t\r\n] + -> skip;

上面的语法在针对上面的例子

运行后给了我跟踪标记
[TOKENS]
  KEY                  'IP:'
  KEY                  'FE80:'
  KEY                  'CD00:'
  ':'                  ':'
  KEY                  '211E:'
  D7                   '7'
  D2                   '2'
  D9                   '9'
  C                    'C'
  EOF                  '<EOF>'
[PARSE-TREE]
line 1:3 mismatched input 'FE80:' expecting {'::', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', A, B, C, D, E, F}
  (keyValue IP: 
    (ip_v6_address FE80: CD00: : 211E: 7 2 9 C))

我希望将键值对作为输出,并且不确定我是否正在编写正确的语法。我遇到的问题是分隔符':'也可以退出值。 任何指针如何修复语法?

1 个答案:

答案 0 :(得分:1)

由于重复的词法规则(多个规则匹配相同的输入),它不起作用。

来自F的{​​{1}}字符未被标记为十六进制数字(FE80:词法分析器规则)。但是,整个块F被标记为FE80:令牌。

您必须意识到词法分析器独立于解析器运行。解析器可能正在尝试匹配某个令牌,词法分析器不会“听”这个。词法分子遵循2个非常简单的规则:

  1. 尝试为单个令牌匹配尽可能多的字符
  2. 当两个或多个令牌匹配相同的字符时,首先定义的规则为“wins”
  3. 由于这些规则,输入KEY被标记为F令牌,但像F这样的输入被标记为FE令牌。

    解决方案是将KEY的构造从词法分析器移动到KEY解析器规则,如下所示:

    key

    导致以下解析树:

    enter image description here