我创建一个正则表达式来匹配电视节目的中文和英文名称。
我的正则表达式位于https://regex101.com/r/rBJHDG,它在正则表达式上工作得很好,但是这个正则表达式在python2中不起作用。
例如,字符串亿万.Billions.S01E01.中英字幕.HDTVrip.1024X576.mp4
正则表达式与亿万
中的name_chs
不匹配,而是将亿万.Billions
与name_en
匹配。
In [68]: r = '^(?P<name_chs>(?:[\\u3007\\u4e00-\\u9fff\\u3400-\\u4dbf\\uf900-\\ufaff]+)(?=\\.))?(?P<name_en>\\S+).S(?P<season>\\d{2})E(?P<episode>\\d{2})'
In [69]: re.match(r, u'亿万.Billions.S01E01.中英字幕.HDTVrip.1024X576.mp4').grou
...: pdict()
Out[69]:
{'episode': u'01',
'name_chs': None,
'name_en': u'\u4ebf\u4e07.Billions',
'season': u'01'}
第二个问题:
如何删除中文名称和英文名称之间的.
中的name_en
。
# 亿万.Billions.S01E01.中英字幕.HDTVrip.1024X576.mp4
Full match 0-18 `亿万.Billions.S01E01`
Group `name_chs` 0-2 `亿万`
Group `name_en` 2-11 `.Billions` <---- This DOT!
Group `season` 13-15 `01`
Group `episode` 16-18 `01`
答案 0 :(得分:1)
看起来问题是正则表达式测试程序包含global
和multiline
标志,但您的代码却没有。如果你在正则表达式测试器中取消选中这两个标志,你会发现测试仪与你当前的结果相符。
您可以尝试r = '^(?P<name_chs>(?:[\\u3007\\u4e00-\\u9fff\\u3400-\\u4dbf\\uf900-\\ufaff]+)(?=\\.))?(?P<name_en>\\S+).S(?P<season>\\d{2})E(?P<episode>\\d{2})', re.MULTILINE)
和
re.search(r, u'亿万.Billions.S01E01.中英字幕.HDTVrip.1024X576.mp4').grou
...: pdict()
至于你的第二个问题:
我只是通过在英文名称前添加(.)
来制作它自己的捕获组,就像这样......
^(?P<name_chs>(?:[\u3007\u4e00-\u9fff\u3400-\u4dbf\uf900-\ufaff]+)(?=\.))?(.)(?P<name_en>\S+).S(?P<season>\d{2})E(?P<episode>\d{2})
现在当你打印英文名字时,它只会是单词,因为圆点在它自己的捕获组中。