从字符串的两端删除子字符串

时间:2018-10-17 11:54:53

标签: python regex

我有一些文件名,其中包含一些我想摆脱的多余单词,例如:VISTHE等。

我是这个正则表达式,但是问题是要删除的单词可以出现在文件名的前面或后面。为了更清楚一些文件名示例:

filenames = ['a_VIS-MarnehNew_24RGB_1110.jpg',
             'Marne_04_Vis.jpg',
             'VIS_jeep_smoke.jpg',
             'IR_fk_ref_01_005.jpg',
             'c_LWIR-MarnehNew_24RGB_1110.jpg',
             'LWIR-MarnehNew_15RGB_603.jpg',
             'Movie_01_IR.jpg',
             'THE_fk_ge_03_005.jpg']

多余的单词是VISVisIRLWIRTHE以及它们前面的每个字符(如果它们出现在前面或每个如果出现在后面,则在它们后面。

正确的例子是:

filenames = ['MarnehNew_24RGB_1110',
             'Marne_04',
             'jeep_smoke',
             'fk_ref_01_005',
             'MarnehNew_24RGB_1110',
             'MarnehNew_15RGB_603',
             'Movie_01',
             'fk_ge_03_005']

我尝试了这段代码,但是(显然,对于后一种情况,这是不够的:

import re
pattern = re.compile('(?:VIS|Vis|IR|LWIR)(?:-|_)(\w+)')

for i, filename in enumerate(filenames):
    matches = re.search(pattern, filename)
    if matches:
        print(i, matches.group(1))
  

0 MarnehNew_24RGB_1110
  2吉普车烟雾
  3 fk_ref_01_005
  4 MarnehNew_24RGB_1110
  5 MarnehNew_15RGB_603

那么,我如何也也摆脱掉背单词?

1 个答案:

答案 0 :(得分:1)

使用您可以使用的示例

(?:^(?:\w_)?(?:VIS|Vis|IR|LWIR|THE)[-_]?)
|
(?:_?(?:VIS|Vis|IR|LWIR))?\.jpg$

什么都不需要替换,请参见a demo on regex101.com


细说:

(?:                          # non-capturing group
    ^                        # anchor at the beginning of a string
    (?:\w_)?                 # \w_ optional
    (?:VIS|Vis|IR|LWIR|THE)  # one of ...
    [-_]?                    # - or _ optional
)
|                            # OR
(?:
    _?
    (?:VIS|Vis|IR|LWIR)
)?
\.jpg$