是否可以将一个数组作为Python正则表达式中的一个匹配组

时间:2018-04-23 18:00:24

标签: python regex

我有以下字符串:

  

成员:{'name':A,'age':30,'gender':M,'height':1.56},{'name':C,'age':20,'gender':M, '身高':1.8},{'姓名':H,'年龄':45,'性别':M,'身高':1.97},{'姓名':D,'年龄':23,'性别': M,'身高':1.68};地点:1 //成员:{'name':S,'age':33,'gender':M,'height':1.4},{'name':C,'age':19,'gender': M,'身高':1.67},{'姓名':A,'年龄':44,'性别':M,'身高':1.92},{'姓名':C,'年龄':33,'性别':M,'身高':1.57};地点:2

我想知道是否有可能/如何匹配:

[['30', '20', '45', '23', '1'], ['33', '19', '44', '33', '2']] or

[(['30', '20', '45', '23'], '1'), (['33', '19', '44', '33'], '2')]

或类似的东西(由此产生的结构并不重要)我只需要拥有一个地方的所有年龄。我知道我可以迭代进行拆分并为每个部分或类似的解决方案应用正则表达式,但我的问题是,如果有一种方法可以使用正则表达式执行一次(单步执行)...

我会使用findall获取所有“完整匹配”。我的问题是将“元组”的第一个参数作为数组...

如果我这样做:

r = re.compile("'age': (\d+).*?; Place: (\d+).*?//")
g = r.findall("Members: {'name': A, 'age': 30, 'gender': M, 'height': 1.56}, {'name': C, 'age': 20, 'gender': M, 'height': 1.8}, {'name': H, 'age': 45, 'gender': M, 'height': 1.97}, {'name': D, 'age': 23, 'gender': M, 'height': 1.68}; Place: 1//Members: {'name': S, 'age': 33, 'gender': M, 'height': 1.4}, {'name': C, 'age': 19, 'gender': M, 'height': 1.67}, {'name': A, 'age': 44, 'gender': M, 'height': 1.92}, {'name': C, 'age': 33, 'gender': M, 'height': 1.57}; Place: 2")

我只能获得第一个年龄,然后才能获得这个地方......

g
[('30', '1')]

4 个答案:

答案 0 :(得分:2)

据我所知,RegEx功能不足以将一个捕获组的命中数存储在列表中,然后是另一个捕获组。

以下只执行一次RegEx搜索和一次循环,但我承认它不是很漂亮。

import re

r = re.compile("(age|Place)'?: (\d+)")

g = r.finditer("Members: {'name': A, 'age': 30, 'gender': M, 'height': 1.56}, {'name': C, 'age': 20, 'gender': M, 'height': 1.8}, {'name': H, 'age': 45, 'gender': M, 'height': 1.97}, {'name': D, 'age': 23, 'gender': M, 'height': 1.68}; Place: 1//Members: {'name': S, 'age': 33, 'gender': M, 'height': 1.4}, {'name': C, 'age': 19, 'gender': M, 'height': 1.67}, {'name': A, 'age': 44, 'gender': M, 'height': 1.92}, {'name': C, 'age': 33, 'gender': M, 'height': 1.57}; Place: 2")

ages = []
ranks = {}
for m in g:
  if m[1] == 'age':
    ages.append(m[2])
  else:
    ranks[m[2]] = ages
    ages = []

print(ranks)

基本上只捕获任何年龄或地点,迭代匹配。将所有年龄段存储到一个列表中,直到我们遇到一个地方,在这种情况下,我们使用前一个列表作为值,将Place作为键的字典。然后我们重置列表并重新开始。

当然需要注意的是,在岁之后,Place总是来自

答案 1 :(得分:2)

以下是使用re.findallitertools.groupby接近解决方案的方法:

import re, itertools
r = re.compile(r'(?:\b(?:age|place)\'?\s*:\s*(\d+))|//|\Z', re.I)
x = r.findall("Members: {'name': A, 'age': 30, 'gender': M, 'height': 1.56}, {'name': C, 'age': 20, 'gender': M, 'height': 1.8}, {'name': H, 'age': 45, 'gender': M, 'height': 1.97}, {'name': D, 'age': 23, 'gender': M, 'height': 1.68}; Place: 1//Members: {'name': S, 'age': 33, 'gender': M, 'height': 1.4}, {'name': C, 'age': 19, 'gender': M, 'height': 1.67}, {'name': A, 'age': 44, 'gender': M, 'height': 1.92}, {'name': C, 'age': 33, 'gender': M, 'height': 1.57}; Place: 2")

输出:

['30', '20', '45', '23', '1', '', '33', '19', '44', '33', '2', '']

第二遍分裂:

o = [list(g[1]) for g in itertools.groupby(x, lambda i: i != '')][::2]

输出:

[['30', '20', '45', '23', '1'], ['33', '19', '44', '33', '2']]

答案 2 :(得分:0)

[re.findall("(\d+)", i) for i in re.split("//", "Members: {'name': A, 'age': 30, 'gender': M}, {'name': C, 'age': 20, 'gender': M}, {'name': H, 'age': 45, 'gender': M}, {'name': D, 'age': 23, 'gender': M}; Place: 1//Members: {'name': S, 'age': 33, 'gender': M}, {'name': C, 'age': 19, 'gender': M}, {'name': A, 'age': 44, 'gender': M}, {'name': C, 'age': 33, 'gender': M}; Place: 2")]
[['30', '20', '45', '23', '1'], ['33', '19', '44', '33', '2']]

答案 3 :(得分:0)

以下是我的观点:

import re
test_str = "Members: {'name': A, 'age': 30, 'gender': M, 'height': 1.56}, {'name': C, 'age': 20, 'gender': M, 'height': 1.8}, {'name': H, 'age': 45, 'gender': M, 'height': 1.97}, {'name': D, 'age': 23, 'gender': M, 'height': 1.68}; Place: 1//Members: {'name': S, 'age': 33, 'gender': M, 'height': 1.4}, {'name': C, 'age': 19, 'gender': M, 'height': 1.67}, {'name': A, 'age': 44, 'gender': M, 'height': 1.92}, {'name': C, 'age': 33, 'gender': M, 'height': 1.57}; Place: 2"

# regex patterns
test_pattern_age = "'age': \d+"
test_pattern_place = "Place: \d+"
test_pattern_strip_nums = "[^0-9]"

# split our string into chunks based on 'Members:''
test_chunks = test_str.split('Members:') 

# our return dict
ret_dict = {};

for chunk in test_chunks:
  temp_place_list = re.findall(test_pattern_place,chunk)
  if len(temp_place_list) > 0:
    temp_place = re.sub(test_pattern_strip_nums, "", temp_place_list[0])
    test_list = re.findall(test_pattern_age,chunk)
    temp_age_list = []
    for x in test_list:
      temp_age_list.append(re.sub(test_pattern_strip_nums, "", x))
    ret_dict[temp_place] = temp_age_list  

  else:
    pass


print(ret_dict)

肯定不是最性感的做事方式,但基本上你是将原来的字符串拆分成块(这里我是基于'成员:' - 但是它可以是地方或其他东西),然后从每个块'得到这个地方和年龄并将它们粘在一个字典中。

结果dict打印出来:

{'1': ['30', '20', '45', '23'], '2': ['33', '19', '44', '33']}

希望有所帮助