Question

我有一个我在Python REGEX中使用的CSV。我需要在CSV的最后一个字段中提取值，但是我在regex101.com中遇到了问题（顺便说一句，很棒的页面）。

几行示例：

,11/12/2017,00-87-67 34849444,-27.00,ITEMRECEIVED,H2G2                   929613292012071217 REF
,02/01/2018,00-87-68 58493922,-1110.79,ITEMSENT,MIL P01  WOOLLIES     9221234545         DEG

我需要使用此正则表达式捕获最后的“MEMO”字段：

(?:[^\,]*\,){5}(?P<CompanyName>[^\s].*)\s{4,19}(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})

我得到的是：

CompanyName           Reference             Type
-----------           -----------           ----
'H2G2               ' '929613292012071217'  'REF'
'MIL P01  WOOLLIES  ' '9221234545'          'DEG'

它看起来并不多，但是如何让正则表达式修剪CompanyName中的尾随空格，以便我得到以下内容呢？

CompanyName         Reference             Type
-----------         -----------           ----
'H2G2'              '929613292012071217'  'REF'
'MIL P01  WOOLLIES' '9221234545'          'DEG'

提前致谢，

QuietLeni

Answer 1

将正则表达式更改为：

(?:[^\,]*\,){5}(?P<CompanyName>[^\s].*\S)\s{4,19}(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})

添加\S基本上意味着在最后一个非空白字符之后不得再有空格。

Answer 2

一种方法可能是使用超前预测来短路＆＃34;一张通配符（非贪婪），如下：

(?P<CompanyName>.*?)(?=\s+\d)

整个模式：

(?:[^\,]*\,){5}(?P<CompanyName>.*?)(?=\s+\d)\s*(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})

（当然，取决于您数据中固有的可能性，我假设公司名称不能以孤立的数字结尾）

https://regex101.com/r/reT66g/1/

Answer 3

除非我遗漏了某些东西，否则只需在问题上添加问号(?P<CompanyName>[^\s].*)（使量词非贪婪）

e.g。 (?P<CompanyName>[^\s].*) - ＆gt; (?P<CompanyName>[^\s].*?)

Answer 4

只需将我的两分钱 - 你可以使用

,
(?P<CompanyName>\b(?:(?!\d{3,})[A-Z\d ])+\b)\s+
(?P<Reference>\b\d{1,18}\b)\s+
(?P<Type>[A-Z]+)

请参阅a demo on regex101.com。

试图摆脱python正则表达式中的尾随空格

4 个答案: