token_get_all和数学运算符

时间:2015-05-28 07:18:28

标签: php token tokenize lexer

我再次使用token_get_all()付款并遇到了一些“特殊”的内容:

给出以下PHP代码行:

<?php $var = 3 * 2 + 5;

当我在其上使用token_get_all()时,我会获得一系列令牌:

array(15) {
  [0]=>
  array(3) {
    [0]=>
    int(376)
    [1]=>
    string(6) "<?php "
    [2]=>
    int(1)
  }
  [1]=>
  array(3) {
    [0]=>
    int(312)
    [1]=>
    string(4) "$var"
    [2]=>
    int(1)
  }
  [2]=>
  array(3) {
    [0]=>
    int(379)
    [1]=>
    string(1) " "
    [2]=>
    int(1)
  }
  [3]=>
  string(1) "="
  [4]=>
  array(3) {
    [0]=>
    int(379)
    [1]=>
    string(1) " "
    [2]=>
    int(1)
  }
  [5]=>
  array(3) {
    [0]=>
    int(308)
    [1]=>
    string(1) "3"
    [2]=>
    int(1)
  }
  [6]=>
  array(3) {
    [0]=>
    int(379)
    [1]=>
    string(1) " "
    [2]=>
    int(1)
  }
  [7]=>
  string(1) "*"
  [8]=>
  array(3) {
    [0]=>
    int(379)
    [1]=>
    string(1) " "
    [2]=>
    int(1)
  }
  [9]=>
  array(3) {
    [0]=>
    int(308)
    [1]=>
    string(1) "2"
    [2]=>
    int(1)
  }
  [10]=>
  array(3) {
    [0]=>
    int(379)
    [1]=>
    string(1) " "
    [2]=>
    int(1)
  }
  [11]=>
  string(1) "+"
  [12]=>
  array(3) {
    [0]=>
    int(379)
    [1]=>
    string(1) " "
    [2]=>
    int(1)
  }
  [13]=>
  array(3) {
    [0]=>
    int(308)
    [1]=>
    string(1) "5"
    [2]=>
    int(1)
  }
  [14]=>
  string(1) ";"
}

请注意,数学运算符(=*+)和分号(;)不是标记,而只是字符串。我期望得到T_MATH_ADDITION+等内容。

为什么上面的“说明”不作为令牌处理?

1 个答案:

答案 0 :(得分:1)

由于它们是单个字符,因此它们已经是终端符号。无需使用令牌。您可以在此处找到可用的解析器令牌列表:http://php.net/manual/en/tokens.php

看一下(伪)语法:

# Using a token
product := T_NUMBER T_MULT_OPERATOR T_NUMBER

# Using the plain char
product := T_NUMBER '*' T_NUMBER

什么看起来更好? ;)

我建议深入研究Flex和Bison并自己编写一个小解析器。事情会变得更加清晰。从这里开始:http://web.iitd.ac.in/~sumeet/flex__bison.pdf(哇,他们把这本书公之于众!)