试图摆脱python正则表达式中的尾随空格

时间:2018-01-18 16:24:09

标签: python regex trim

我有一个我在Python REGEX中使用的CSV。我需要在CSV的最后一个字段中提取值,但是我在regex101.com中遇到了问题(顺便说一句,很棒的页面)。

几行示例:

,11/12/2017,00-87-67 34849444,-27.00,ITEMRECEIVED,H2G2                   929613292012071217 REF
,02/01/2018,00-87-68 58493922,-1110.79,ITEMSENT,MIL P01  WOOLLIES     9221234545         DEG

我需要使用此正则表达式捕获最后的“MEMO”字段:

(?:[^\,]*\,){5}(?P<CompanyName>[^\s].*)\s{4,19}(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})

我得到的是:

CompanyName           Reference             Type
-----------           -----------           ----
'H2G2               ' '929613292012071217'  'REF'
'MIL P01  WOOLLIES  ' '9221234545'          'DEG'

它看起来并不多,但是如何让正则表达式修剪CompanyName中的尾随空格,以便我得到以下内容呢?

CompanyName         Reference             Type
-----------         -----------           ----
'H2G2'              '929613292012071217'  'REF'
'MIL P01  WOOLLIES' '9221234545'          'DEG'

提前致谢,

QuietLeni

4 个答案:

答案 0 :(得分:0)

将正则表达式更改为:

(?:[^\,]*\,){5}(?P<CompanyName>[^\s].*\S)\s{4,19}(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})

添加\S基本上意味着在最后一个非空白字符之后不得再有空格。

答案 1 :(得分:0)

一种方法可能是使用超前预测来短路&#34;一张通配符(非贪婪),如下:

(?P<CompanyName>.*?)(?=\s+\d)

整个模式:

(?:[^\,]*\,){5}(?P<CompanyName>.*?)(?=\s+\d)\s*(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})

(当然,取决于您数据中固有的可能性,我假设公司名称不能以孤立的数字结尾)

https://regex101.com/r/reT66g/1/

答案 2 :(得分:0)

除非我遗漏了某些东西,否则只需在问题上添加问号(?P<CompanyName>[^\s].*)(使量词非贪婪)

e.g。 (?P<CompanyName>[^\s].*) - &gt; (?P<CompanyName>[^\s].*?)

答案 3 :(得分:0)

只需将我的两分钱 - 你可以使用

,
(?P<CompanyName>\b(?:(?!\d{3,})[A-Z\d ])+\b)\s+
(?P<Reference>\b\d{1,18}\b)\s+
(?P<Type>[A-Z]+)

请参阅a demo on regex101.com