我正在整理一个相当复杂的正则表达式。表达式的一部分匹配字符串,例如'+ a',' - 57'等.A +或a - 后跟任意数量的字母或数字。我想匹配匹配此模式的0个或更多字符串。
这是我提出的表达方式:
([\+-][a-zA-Z0-9]+)*
如果我使用这种模式搜索字符串'-56 + a',我希望得到两个匹配:
+ a和-56
但是,我只返回了最后一场比赛:
>>> m = re.match("([\+-][a-zA-Z0-9]+)*", '-56+a')
>>> m.groups()
('+a',)
查看python文档,我看到了:
如果一个组多次匹配,则只能访问最后一个匹配:
>>> m = re.match(r"(..)+", "a1b2c3") # Matches 3 times. >>> m.group(1) # Returns only the last match. 'c3'
所以,我的问题是:你如何 访问多个群组匹配?
答案 0 :(得分:55)
从正则表达式中删除*
(因此它只与您的模式的一个实例匹配)。然后使用re.findall(...)
或re.finditer
(请参阅here)返回所有匹配项。
<强>更新强>
听起来你实际上正在构建一个recursive descent parser。对于相对简单的解析任务,手动执行此操作是非常常见且完全合理的。如果您对库解决方案感兴趣(例如,以后您的解析任务可能会变得更复杂),请查看pyparsing。
答案 1 :(得分:27)
regex
module通过添加.captures
方法解决了这个问题:
>>> m = regex.match(r"(..)+", "a1b2c3")
>>> m.captures(1)
['a1', 'b2', 'c3']