我想在长字符串中找出一些特殊的关键字。 以下是示例:
long_str = '''
TX[03]
rqn : 0x73
cqn : 0x12
packets : 888
encap : 0
csumNone : 0
csumOk : 0
lroPackets : 0
lroBytes : 0
wqeErr : 0
RX[12]
rqn : 0xa6
cqn : 0x2a
packets : 123
encap : 0
csumNone : 0
csumOk : 0
lroPackets : 0
lroBytes : 0
wqeErr : 0
RX[13]
rqn : 0xa9
cqn : 0x2c
packets : 456
encap : 0
csumNone : 0
csumOk : 0
lroPackets : 0
lroBytes : 0
wqeErr : 0'''
result = re.findall('RX\[\d+\].*packets\s+:\s+(\d+)', a, re.DOTALL)
但result
为['456']
,与我预期的['123','456']
不同。
如何修复我的重新模式以过滤掉预期值?
提前致谢。
答案 0 :(得分:4)
最简单的解决方案是让它变得懒惰:
RX\[\d+\].*?packets\s+:\s+(\d+)
见working on regex101.com。
否则,您的.*
构造会耗尽 整个字符串 并在之后回溯(当找到最后一个packets
时成功)。
RX\[\d+\]\n
(?:.+\n){2}
packets\D+(\d+)
请参阅this one working here(并注意不同的修饰符!)。
答案 1 :(得分:1)
正如文档https://docs.python.org/2/library/re.html中所提到的,'*'
,'+'
和'?'
限定符都是贪婪的;它们匹配尽可能多的文本。有时这种行为是不可取的;如果RE <.*>
与<a> b <c>
匹配,则它将匹配整个字符串,而不仅仅是<a>
。在限定符之后添加?
使其以非贪婪或最小的方式执行匹配;尽可能少的字符将匹配。使用RE <.*?>
只会匹配<a>
。
同样在您的情况下,result = re.findall('RX\[\d+\].*?packets\s+:\s+(\d+)', a, re.DOTALL)
会给出预期的结果。