Python正则表达式子组捕获

时间:2015-03-12 21:04:00

标签: python regex

我正在尝试解析以下字符串:

constructor: function(some, parameters, here) {

使用以下正则表达式:

re.search("(\w*):\s*function\((?:(\w*)(?:,\s)*)*\)", line).groups()

我得到了:

('constructor', '')

但我期待的更像是:

('constructor', 'some', 'parameters', 'here')

我错过了什么?

4 个答案:

答案 0 :(得分:5)

如果您将模式更改为:

print re.search(r"(\w*):\s*function\((?:(\w+)(?:,\s)?)*\)", line).groups()

你会得到:

('constructor', 'here')

这是因为(来自docs):

  

如果一个组包含在多次匹配的模式的一部分中,则返回最后一个匹配。

如果你能一步到位,我就不知道怎么做。你的另一种选择当然是做一些事情:

def parse_line(line):
    cons, args = re.search(r'(\w*):\s*function\((.*)\)', line).groups()
    mats = re.findall(r'(\w+)(?:,\s*)?', args)
    return [cons] + mats

print parse_line(line)  # ['constructor', 'some', 'parameters', 'here']

答案 1 :(得分:4)

一种选择是使用更高级的regex而不是库存re。除了其他好处之外,它支持captures,与groups不同,它保存每个匹配的子字符串:

>>> line = "constructor: function(some, parameters, here) {"
>>> import regex
>>> regex.search("(\w*):\s*function\((?:(\w+)(?:,\s)*)*\)", line).captures(2)
['some', 'parameters', 'here']

答案 2 :(得分:3)

re模块不支持重复捕获:组计数是固定的。可能的解决方法包括:

1)将参数捕获为字符串,然后将其拆分:

match = re.search("(\w*):\s*function\(([\w\s,]*)\)", line).groups()
args = [arg.strip() for arg in math[1].split(",")]

2)将参数作为字符串捕获,然后找到它:

match = re.search("(\w*):\s*function\(([\w\s,]*)\)", line).groups()
args = re.findall("(\w+)(?:,\s)*", match[1])

3)如果您的输入字符串已经过验证,您可以找到所有内容:

re.findall("(\w+)[:,)]", string)

或者,您可以使用regex模块并捕获(),如@georg所示。

答案 3 :(得分:0)

您可能需要在此处执行两项操作(searchfindall):

[re.search(r'[^:]+', given_string).group()] + re.findall(r'(?<=[ (])\w+?(?=[,)])', given_string)

Output: ['constructor', 'some', 'parameters', 'here']