我有一个我在Python REGEX中使用的CSV。我需要在CSV的最后一个字段中提取值,但是我在regex101.com中遇到了问题(顺便说一句,很棒的页面)。
几行示例:
,11/12/2017,00-87-67 34849444,-27.00,ITEMRECEIVED,H2G2 929613292012071217 REF
,02/01/2018,00-87-68 58493922,-1110.79,ITEMSENT,MIL P01 WOOLLIES 9221234545 DEG
我需要使用此正则表达式捕获最后的“MEMO”字段:
(?:[^\,]*\,){5}(?P<CompanyName>[^\s].*)\s{4,19}(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})
我得到的是:
CompanyName Reference Type
----------- ----------- ----
'H2G2 ' '929613292012071217' 'REF'
'MIL P01 WOOLLIES ' '9221234545' 'DEG'
它看起来并不多,但是如何让正则表达式修剪CompanyName中的尾随空格,以便我得到以下内容呢?
CompanyName Reference Type
----------- ----------- ----
'H2G2' '929613292012071217' 'REF'
'MIL P01 WOOLLIES' '9221234545' 'DEG'
提前致谢,
QuietLeni
答案 0 :(得分:0)
将正则表达式更改为:
(?:[^\,]*\,){5}(?P<CompanyName>[^\s].*\S)\s{4,19}(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})
添加\S
基本上意味着在最后一个非空白字符之后不得再有空格。
答案 1 :(得分:0)
一种方法可能是使用超前预测来短路&#34;一张通配符(非贪婪),如下:
(?P<CompanyName>.*?)(?=\s+\d)
整个模式:
(?:[^\,]*\,){5}(?P<CompanyName>.*?)(?=\s+\d)\s*(?P<Reference>\S{1,18})\s{1,11}(?P<Type>\w{3})
(当然,取决于您数据中固有的可能性,我假设公司名称不能以孤立的数字结尾)
答案 2 :(得分:0)
除非我遗漏了某些东西,否则只需在问题上添加问号(?P<CompanyName>[^\s].*)
(使量词非贪婪)
e.g。 (?P<CompanyName>[^\s].*)
- &gt; (?P<CompanyName>[^\s].*?)
答案 3 :(得分:0)
只需将我的两分钱 - 你可以使用
,
(?P<CompanyName>\b(?:(?!\d{3,})[A-Z\d ])+\b)\s+
(?P<Reference>\b\d{1,18}\b)\s+
(?P<Type>[A-Z]+)