Question

我有一些看起来像这样的字符串

S25m\S25m_16Q_-2dB.png
S25m\S25m_1_16Q_0dB.png
S25m\S25m_2_16Q_2dB.png

我希望得到斜杠和最后一个下划线之间的字符串，以及最后一个下划线和扩展名之间的字符串，所以

所需：

[S25m_16Q, S25m_1_16Q, S25m_2_16Q]
[-2dB, 0dB, 2dB]

通过执行

，我能够在斜杠和扩展之间得到全部内容

foo = "S25m\S25m_16Q_-2dB.png"
match = re.search(r'([a-zA-Z0-9_-]*)\.(\w+)', foo)
match.group(1)

但我不知道如何制作一个模式，所以我可以将它拆分为最后一个下划线。

Answer 1

捕获您想要获得的群组。

>>> re.search(r'([-\w]*)_([-\w]+)\.\w+', "S25m\S25m_16Q_-2dB.png").groups()
('S25m_16Q', '-2dB')
>>> re.search(r'([-\w]*)_([-\w]+)\.\w+', "S25m\S25m_1_16Q_0dB.png").groups()
('S25m_1_16Q', '0dB')
>>> re.search(r'([-\w]*)_([-\w]+)\.\w+', "S25m\S25m_2_16Q_2dB.png").groups()
('S25m_2_16Q', '2dB')

*贪婪地匹配前一个字符集（尽可能多地消耗）;它继续到最后_，因为\w包括字母，数字和下划线。

>>> zip(*[m.groups() for m in re.finditer(r'([-\w]*)_([-\w]+)\.\w+', r'''
... S25m\S25m_16Q_-2dB.png 
... S25m\S25m_1_16Q_0dB.png
... S25m\S25m_2_16Q_2dB.png
... ''')])
[('S25m_16Q', 'S25m_1_16Q', 'S25m_2_16Q'), ('-2dB', '0dB', '2dB')]

Answer 2

非正则表达式解决方案（虽然相当混乱）：

>>> import os
>>> s = "S25m\S25m_16Q_-2dB.png"
>>> first, _, last = s.partition("\\")[2].rpartition('_')
>>> print (first, os.path.splitext(last)[0])
('S25m_16Q', '-2dB')

Answer 3

我知道它使用re，但为什么不使用split？

strings = """S25m\S25m_16Q_-2dB.png
S25m\S25m_1_16Q_0dB.png
S25m\S25m_2_16Q_2dB.png"""

strings = strings.split("\n")

parts = []
for string in strings:
    string = string.split(".png")[0] #Get rid of file extension
    string = string.split("\\")
    splitString = string[1].split("_")
    firstPart = "_".join(splitString[:-1]) # string between slash and last underscore
    parts.append([firstPart, splitString[-1]])


for line in parts:
    print line

['S25m_16Q', '-2dB']
['S25m_1_16Q', '0dB']
['S25m_2_16Q', '2dB']

然后转换数组，

for line in zip(*parts):
    print line

('S25m_16Q', 'S25m_1_16Q', 'S25m_2_16Q')
('-2dB', '0dB', '2dB')

Python重新匹配字符串中的最后一个下划线

3 个答案: