Python - 词法分析和标记化

时间:2010-03-01 20:32:35

标签: python transform lexical-analysis

我希望在这里加快我的发现过程,因为这是我第一次进入词汇分析世界。也许这甚至是错误的道路。首先,我将描述我的问题:

我有非常大的属性文件(大约有1,000个属性),在提炼时,实际上只有大约15个重要属性,其余的可以生成或很少更改。

所以,例如:

general {
  name = myname
  ip = 127.0.0.1
}

component1 {
   key = value
   foo = bar
}

这是我想要创建的格式类型,例如:

property.${general.name}blah.home.directory = /blah
property.${general.name}.ip = ${general.ip}
property.${component1}.ip = ${general.ip}
property.${component1}.foo = ${component1.foo}

property.mynameblah.home.directory = /blah
property.myname.ip = 127.0.0.1
property.component1.ip = 127.0.0.1
property.component1.foo = bar

词法分析和标记化听起来像是我最好的路线,但这是一种非常简单的形式。这是一个简单的语法,一个简单的替代,我想确保我没有带一个大锤敲钉。

我可以创建自己的词法分析器和标记器,或ANTlr是可能的,但我不喜欢重新发明轮子和ANTlr听起来有点矫枉过正。

我不熟悉编译器技术,所以指向正确的方向&代码将是最受欢迎的。

注意:我可以更改输入格式。

5 个答案:

答案 0 :(得分:11)

Using Regular Expressions for Lexical Analysis effbot.org上有一篇关于{{3}}的精彩文章。

使令牌化程序适应您的问题:

import re

token_pattern = r"""
(?P<identifier>[a-zA-Z_][a-zA-Z0-9_]*)
|(?P<integer>[0-9]+)
|(?P<dot>\.)
|(?P<open_variable>[$][{])
|(?P<open_curly>[{])
|(?P<close_curly>[}])
|(?P<newline>\n)
|(?P<whitespace>\s+)
|(?P<equals>[=])
|(?P<slash>[/])
"""

token_re = re.compile(token_pattern, re.VERBOSE)

class TokenizerException(Exception): pass

def tokenize(text):
    pos = 0
    while True:
        m = token_re.match(text, pos)
        if not m: break
        pos = m.end()
        tokname = m.lastgroup
        tokvalue = m.group(tokname)
        yield tokname, tokvalue
    if pos != len(text):
        raise TokenizerException('tokenizer stopped at pos %r of %r' % (
            pos, len(text)))

为了测试它,我们这样做:

stuff = r'property.${general.name}.ip = ${general.ip}'
stuff2 = r'''
general {
  name = myname
  ip = 127.0.0.1
}
'''

print ' stuff '.center(60, '=')
for tok in tokenize(stuff):
    print tok

print ' stuff2 '.center(60, '=')
for tok in tokenize(stuff2):
    print tok

有:

========================== stuff ===========================
('identifier', 'property')
('dot', '.')
('open_variable', '${')
('identifier', 'general')
('dot', '.')
('identifier', 'name')
('close_curly', '}')
('dot', '.')
('identifier', 'ip')
('whitespace', ' ')
('equals', '=')
('whitespace', ' ')
('open_variable', '${')
('identifier', 'general')
('dot', '.')
('identifier', 'ip')
('close_curly', '}')
========================== stuff2 ==========================
('newline', '\n')
('identifier', 'general')
('whitespace', ' ')
('open_curly', '{')
('newline', '\n')
('whitespace', '  ')
('identifier', 'name')
('whitespace', ' ')
('equals', '=')
('whitespace', ' ')
('identifier', 'myname')
('newline', '\n')
('whitespace', '  ')
('identifier', 'ip')
('whitespace', ' ')
('equals', '=')
('whitespace', ' ')
('integer', '127')
('dot', '.')
('integer', '0')
('dot', '.')
('integer', '0')
('dot', '.')
('integer', '1')
('newline', '\n')
('close_curly', '}')
('newline', '\n')

答案 1 :(得分:2)

就像你的格式一样简单,我认为一个完整的解析器/词法分析器会有点过分。看起来像正则表达式和字符串操作的组合可以做到这一点。

另一个想法是将文件更改为json或xml,并使用现有的包。

答案 2 :(得分:2)

简单的DFA适用于此。你只需要几个州:

  1. 寻找${
  2. 看到${寻找至少一个形成名称的有效字符
  3. 至少看到一个有效名称字符,查找更多名称字符或}
  4. 如果属性文件与订单无关,您可能需要双通道处理器来验证每个名称是否正确解析。

    当然,您需要编写替换代码,但是一旦列出了所有使用的名称,最简单的实现就是${name}上的查找/替换及其对应的值。

答案 3 :(得分:1)

如果您可以更改输入文件的格式,则可以使用解析器来处理现有格式,例如JSON。

然而,从您的问题陈述中听起来并非如此。因此,如果要创建自定义词法分析器和解析器,请使用PLY(Python Lex / Yacc)。它易于使用,与lex / yacc的工作方式相同。

以下是使用PLY构建的计算器example的链接。请注意,以t_开头的所有内容都是词法分析器规则 - 定义有效令牌 - 以p_开头的所有内容都是定义语法生成的解析器规则。

答案 4 :(得分:1)

您提供的语法与Mako templates engine类似。我想你可以尝试一下,这是一个相当简单的API。