正则表达式匹配字符串中的任意数量的标记

时间:2018-04-23 06:46:59

标签: python regex

我有以下格式的演讲者信息行列表(注意:列表来自LibriSpeech语料库):

58 | M | train-other-500 | 30.06 | George Coutts

|(管道)将该行划分为:

  • 发言人身份
  • 语料库的子集
  • 分钟录制的音频
  • 演讲者姓名

我想使用正则表达式在Python中提取此信息。到目前为止,我使用了以下正则表达式:

(?P<speaker_id>.*)\|(?P<sex>.*)\|(?P<subset>.*)\|(?P<minutes>.*)\|(?P<speaker_name>.*)(?=.*)

这适用于几乎所有情况,除非说话者名称本身包含管道字符(至少一个说话者就是这种情况)。然后正则表达式通过贪婪匹配第一组(然后还包含性别和子集信息)以错误的方式拆分不同的组。

请参阅https://regex101.com/r/GQzWOg/2了解演示。

如何让正则表达式与最后一个管道后的所有内容匹配为speaker_name组?

我已经尝试过positive lookahead但我真的无法理解这个......

1 个答案:

答案 0 :(得分:1)

您可以更正确地使用正则表达式:

^(?P<speaker_id>\d+)\s*\|\s*(?P<sex>[MF])\s*\|\s*(?P<subset>.*?)\s*\|\s*(?P<minutes>\d[\d.]*)\s*\|\s*(?P<speaker_name>.*)

请参阅regex demo

打破它:

  • ^ - 字符串的开头(如果使用re.M标志,则为行)
  • (?P<speaker_id>\d+) - 1+位数
  • \s*\|\s* - |附有0 +空格
  • (?P<sex>[MF]) - MF(针对性别)
  • \s*\|\s* - |附有0 +空格
  • (?P<subset>.*?) - 除了换行符之外的任何0 +字符
  • \s*\|\s* - |附有0 +空格
  • (?P<minutes>\d[\d.]*) - 一个数字,然后是0+数字或.
  • \s*\|\s* - |附有0 +空格
  • (?P<speaker_name>.*) - 除了换行符之外的任何0 +字符,直到字符串/行的末尾。