我有一个由混合mp3信息组成的字符串,我必须尝试匹配由任意字符串和标记组成的模式。它的工作原理如下:
Beatles_Abbey_Road-SomeWord-1969
%Artist_%专辑 - SomeWord-%年
找到2个匹配项:
[1] {'艺术家':'披头士','专辑':'Abbey_Road','年':1969年}
[2] {'艺术家':'Beatles_Abbey','专辑':'道路','年':1969年}
例如,假设模式是艺术家名称,后跟标题(分隔符:' - ')。
示例1:
>>> artist = 'Bob Marley'
>>> title = 'Concrete Jungle'
>>> re.findall(r'(.+)-(.+)', '%s-%s' % (artist,title))
[('Bob Marley', 'Concrete Jungle')]
到目前为止,这么好。但是......
我无法控制使用的分隔符,也无法保证它不会出现在标签中,因此存在更棘手的情况:
示例2:
>>> artist = 'Bob-Marley'
>>> title = 'Roots-Rock-Reggae'
>>> re.findall(r'(.+)-(.+)', '%s-%s' % (artist,title))
[('Bob-Marley-Roots-Rock', 'Reggae')]
正如预期的那样,在这种情况下它不会工作。
如何生成所有可能的艺术家/标题组合?
[('Bob', 'Marley-Roots-Rock-Reggae'),
('Bob-Marley', 'Roots-Rock-Reggae')
('Bob-Marley-Roots', 'Rock-Reggae'),
('Bob-Marley-Roots-Rock', 'Reggae')]
正则表达式是用于该工作的工具吗?
请记住,要匹配的标签数量和这些标签之间的分隔符不是固定的,而是用户定义的(因此要使用的正则表达式必须是动态构建的)。 我尝试使用 greedy vs minimal matching 和 lookahead 断言进行试验,但没有成功。
感谢您的帮助
答案 0 :(得分:1)
此解决方案似乎有效。除了正则表达式之外,您还需要一个元组列表来描述模式,其中每个元素对应一个正则表达式的一个捕获组。
对于甲壳虫乐队的例子,它看起来像这样:
pattern = r"the (.+_.+)-SomeWord-(.+)"
groups = [(("Artist", "Album"), "_"), ("Year", None)]
由于Artist
和Album
仅由一个分隔符拆分,因此它们将在一个组中一起捕获。列表中的第一项表示第一个捕获组将被分为Artist
和Album
,并将使用_
作为分隔符。列表中的第二项表示第二个捕获组将直接用作Year
,因为元组中的第二个元素是None
。然后你可以这样调用这个函数:
>>> get_mp3_info(groups, pattern, "the Beatles_Abbey_Road-SomeWord-1969")
[{'Album': 'Abbey_Road', 'Year': '1969', 'Artist': 'Beatles'}, {'Album': 'Road', 'Year': '1969', 'Artist': 'Beatles_Abbey'}]
以下是代码:
import re
from itertools import combinations
def get_mp3_info(groups, pattern, title):
match = re.match(pattern, title)
if not match:
return []
result = [{}]
for i, v in enumerate(groups):
if v[1] is None:
for r in result:
r[v[0]] = match.group(i+1)
else:
splits = match.group(i+1).split(v[1])
before = [d.copy() for d in result]
for comb in combinations(range(1, len(splits)), len(v[0])-1):
temp = [d.copy() for d in before]
comb = (None,) + comb + (None,)
for j, split in enumerate(zip(comb, comb[1:])):
for t in temp:
t[v[0][j]] = v[1].join(splits[split[0]:split[1]])
if v[0][0] in result[0]:
result.extend(temp)
else:
result = temp
return result
Bob Marley的另一个例子:
>>> pprint.pprint(get_mp3_info([(("Artist", "Title"), "-")],
... r"(.+-.+)", "Bob-Marley-Roots-Rock-Reggae"))
[{'Artist': 'Bob', 'Title': 'Marley-Roots-Rock-Reggae'},
{'Artist': 'Bob-Marley', 'Title': 'Roots-Rock-Reggae'},
{'Artist': 'Bob-Marley-Roots', 'Title': 'Rock-Reggae'},
{'Artist': 'Bob-Marley-Roots-Rock', 'Title': 'Reggae'}]
答案 1 :(得分:0)
这样的事情怎么样而不是使用正则表达式?
import re
string = "Bob-Marley-Roots-Rock-Reggae"
def allSplits(string, sep):
results = []
chunks = string.split('-')
for i in xrange(len(chunks)-1):
results.append((
sep.join(chunks[0:i+1]),
sep.join(chunks[i+1:len(chunks)])
))
return results
print allSplits(string, '-')
[('Bob', 'Marley-Roots-Rock-Reggae'), ('Bob-Marley', 'Roots-Rock-Reggae'), ('Bob-Marley-Roots', 'Rock-Reggae'), ('Bob-Marley-Roots-Rock', 'Reggae')]