我想从一个字符串中捕获三个子字符串,该字符串必须包含这三个子字符串模式:
如果三个子字符串模式不可用,则不会返回匹配。
模式样本:
XD079523 ALFRED ROMEO 19830311
ALFRED BETA GAMMA 19830311 AD929523
BETA FERNANDEZ AS079523 19830311
19830311 BETA MAX AS079523
KK079523 19830311 ANGEL MARINA VINES
19830121 BX079523 VINCENT EVERHART
我已经尝试了以下正则表达式:
/(?=.*\b([a-z]{1,2}\d+)\b)(?=.*\b(\d+)\b)(?=.*((?:\b[a-z]+\b\s*)+)).+/mi
测试:https://regex101.com/r/iypQuC/1
使用上述模式,我可以成功捕捉生日&身份证号码,而不是全名。该模式仅捕获全名中的最后一个单词。
对此有何建议?
感谢。
答案 0 :(得分:4)
问题显然是因为(?=.*((?:\b[a-z]+\b\s*)+))
中的exploit the same back-door。您可以通过将.*
放在后面,让?
使所需的单词变得懒散。我会另外建议重构该部分以获得更好的准确性:
^(?=.*?\b([a-z]{1,2}\d+)\b)(?=.*?\b(\d+)\b)(?=.*?\b([a-z]+(?:\h+[a-z]+)*)\b).+
.*
懒惰.*?
(也是为了更好的表现)^
锚点,仅在启动时触发前瞻