Question

目前我想分割一个包含正则表达式的所有匹配特殊字符的行。由于很难解释，这里有几个例子：

('.+abcd[0-9]+\.mp3', 'Aabcd09.mp3') - ＆gt; [ 'A', '09' ]

('.+\..+_[0-9]+\.mp3', 'A.abcd_09.mp3') - ＆gt; [ 'A', 'abcd', '09' ]

你知道如何实现这个目标吗？我没找到任何东西。

Answer 1

看起来您需要一个所谓的tokenizer/lexer来首先解析正则表达式。它允许您在子表达式上拆分基础正则表达式。然后只需将这些子表达式应用于原始字符串并打印出匹配项。

Answer 2

你可以试试这个：

import re
s = ['Aabcd09.mp3', 'A.abcd_09.mp3']
new_s = [re.findall('(?<=^)[a-zA-Z]|(?<=\.)[a-zA-Z]+(?=_)|\d+(?=\.mp3)', i) for i in s]

输出：

[['A', '09'], ['A', 'abcd', '09']]