我正在解析一个相对简单的文本,其中每一行描述一个游戏单元。我对解析技术知之甚少,所以我使用了以下特殊解决方案:
class Unit:
# rules is an ordered dictionary of tagged regex that is intended to be applied in the given order
# the group named V would correspond to the value (if any) for that particular tag
rules = (
('Level', r'Lv. (?P<V>\d+)'),
('DPS', r'DPS: (?P<V>\d+)'),
('Type', r'(?P<V>Tank|Infantry|Artillery'),
#the XXX will be expanded into a list of valid traits
#note: (XXX| )* wouldn't work; it will match the first space it finds,
#and stop at that if it's in front of something other than a trait
('Traits', r'(?P<V>(XXX)(XXX| )*)'),
# flavor text, if any, ends with a dot
('FlavorText', r'(?P<V>.*\."?$)'),
)
rules = collections.OrderedDict(rules)
traits = '|'.join('All-Terrain', 'Armored', 'Anti-Aircraft', 'Motorized')
rules['Traits'] = re.sub('XXX', effects, rules['Traits'])
for x in rules:
rules[x] = re.sub('<V>', '<'+x+'>', rules[x])
rules[x] = re.compile(rules[x])
def __init__(self, data)
# data looks like this:
# Lv. 5 Tank DPS: 55 Motorized Armored
for field, regex in Item.rules.items():
data = regex.sub(self.parse, data, 1)
if data:
raise ParserError('Could not parse part of the input: ' + data)
def parse(self, m):
if len(m.groupdict()) != 1:
Exception('Expected a single named group')
field, value = m.groupdict().popitem()
setattr(self, field, value)
return ''
它工作正常,但我觉得我达到了正则表达式的极限。具体来说,在Traits的情况下,该值最终成为我需要拆分并在以后转换为列表的字符串:例如,obj.Traits将在此代码中设置为“Motorized Armored”,但在后来的功能变为('Motorized','Armored')。
我正在考虑将此代码转换为使用EBNF或pyparsing语法或类似的东西。我的目标是:
您对使用什么以及如何重写代码有什么建议?
P.S。我跳过代码的某些部分以避免混乱;如果我在过程中引入了任何错误,抱歉 - 原始代码确实有效:)
答案 0 :(得分:4)
我开始写一篇关于pyparsing的教练指南,但是看看你的规则,他们很容易将自己翻译成pyparsing元素,而不用处理EBNF,所以我只是编写了一个快速的样本:
from pyparsing import Word, nums, oneOf, Group, OneOrMore, Regex, Optional
integer = Word(nums)
level = "Lv." + integer("Level")
dps = "DPS:" + integer("DPS")
type_ = oneOf("Tank Infantry Artillery")("Type")
traits = Group(OneOrMore(oneOf("All-Terrain Armored Anti-Aircraft Motorized")))("Traits")
flavortext = Regex(r".*\.$")("FlavorText")
rule = (Optional(level) & Optional(dps) & Optional(type_) &
Optional(traits) & Optional(flavortext))
我包含了Regex示例,因此您可以看到如何将正则表达式放入现有的pyparsing语法中。 rule
使用'&amp;'的组成运算符意味着可以按任何顺序找到单个项目(因此语法负责迭代所有规则,而不是在您自己的代码中执行)。 Pyparsing使用运算符重载来构建简单的解析器:'+'表示序列,'|'和'^'代替替代品(第一场比赛或最长比赛),等等。
以下是解析结果的外观 - 请注意我添加了结果名称,就像在regexen中使用命名组一样:
data = "Lv. 5 Tank DPS: 55 Motorized Armored"
parsed_data = rule.parseString(data)
print parsed_data.dump()
print parsed_data.DPS
print parsed_data.Type
print ' '.join(parsed_data.Traits)
打印:
['Lv.', '5', 'Tank', 'DPS:', '55', ['Motorized', 'Armored']]
- DPS: 55
- Level: 5
- Traits: ['Motorized', 'Armored']
- Type: Tank
55
Tank
Motorized Armored
请停止维基并查看其他示例。您可以通过easy_install来安装pyparsing,但是如果从SourceForge下载源代码发布,则还有很多其他文档。