符号表达的正则表达式分组

时间:2016-05-12 10:25:14

标签: python regex

在python中,我试图像这样表达式的正则表达式:

function_1(param_1,param_2,param_3)+function_2(param_4,param_5)*function_3(param_6)+function_4()-function_5(param_7,param_8,param_9,param_10)

我正在使用这个正则表达式

(?P<perf_name>\w*?)\((?P<perf_param>[\w]+)*(?:,*(?P<perf_param2>[\w]+)?)*\)

但我被卡住了,因为到目前为止我无法得到所有不接近括号的params_x(param_2,param_8和param_9)

另外,我非常确定有一些解决方案会阻止我使用单个 perf_param 而不是两个 perf_param perf_param2

有什么想法吗?

1 个答案:

答案 0 :(得分:3)

你应该分两步完成:

(?P<perf_name>\w*)\((?P<perf_params>\w*(?:,\w+)*)\)

This regex会将你的名字和参数分为两组。然后,只需将第二个组与,分开。

import re
p = re.compile(r'(?P<perf_name>\w*)\((?P<perf_params>\w*(?:,\w+)*)\)')
s = "function_1(param_1,param_2,param_3)+function_2(param_4,param_5)*function_3(param_6)+function_4()-function_5(param_7,param_8,param_9,param_10)"
res = [(x.group("perf_name"), x.group("perf_params").split(",")) for x in p.finditer(s)]
print(res)
# => [('function_1', ['param_1', 'param_2', 'param_3']), ('function_2', ['param_4', 'param_5']), ('function_3', ['param_6']), ('function_4', ['']), ('function_5', ['param_7', 'param_8', 'param_9', 'param_10'])]

请参阅Python demo

正则表达式匹配:

  • (?P<perf_name>\w*) - 0个或更多字母数字/下划线字符
  • \( - 文字(
  • (?P<perf_params>\w*(?:,\w+)*) - 0 + 0个单词字符的序列(\w*),后跟0 + 1个单词字符的序列
  • \) - 关闭)