我正在学习Python中的词法分析器。我正在使用Ply库对一些字符串进行词法分析。我已经为一些C ++语言语法实现了以下词法分析器。
但是,我面临一种奇怪的行为。当我在其他函数定义的末尾定义 COMMENT states function definitions
时,代码工作正常。如果我在其他定义之前定义 COMMENT state functions
,我会在输入字符串中的//
sectoin开始时立即收到错误。
这背后的原因是什么?
import ply.lex as lex
tokens = (
'DLANGLE', # <<
'DRANGLE', # >>
'EQUAL', # =
'STRING', # "144"
'WORD', # 'Welcome' in "Welcome."
'SEMICOLON', # ;
)
t_ignore = ' \t\v\r' # shortcut for whitespace
states = (
('cppcomment', 'exclusive'), # <!--
)
def t_cppcomment(t): # definition here causes errors
r'//'
print 'MyCOm:',t.value
t.lexer.begin('cppcomment');
def t_cppcomment_end(t):
r'\n'
t.lexer.begin('INITIAL');
def t_cppcomment_error(t):
print "Error FOUND"
t.lexer.skip(1)
def t_DLANGLE(t):
r'<<'
print 'MyLAN:',t.value
return t
def t_DRANGLE(t):
r'>>'
return t
def t_SEMICOLON(t):
r';'
print 'MySemi:',t.value
return t;
def t_EQUAL(t):
r'='
return t
def t_STRING(t):
r'"[^"]*"'
t.value = t.value[1:-1] # drop "surrounding quotes"
print 'MyString:',t.value
return t
def t_WORD(t):
r'[^ <>\n]+'
print 'MyWord:',t.value
return t
webpage = "cout<<\"Hello World\"; // this comment"
htmllexer = lex.lex()
htmllexer.input(webpage)
while True:
tok = htmllexer.token()
if not tok: break
print tok
此致
答案 0 :(得分:1)
刚想通了。由于我已将注释状态定义为exclusive
,因此它不会使用inclusive
状态模块(如果注释模块在顶部定义,则由于某种原因使用它)。因此,您将再次重新定义所有模块以进行评论状态。因此, ply 提供 error()模块,用于跳过未定义特定模块的字符。
答案 1 :(得分:0)
因为您没有接受this
或comment
的规则
并且你真的不在乎评论中的什么,你可以轻松做点什么
t_cppcomment_ANYTHING = '[^\r\n]'
正好位于t_ignore
规则