正则表达式:如果字符串包含某些模式,则捕获句子

时间:2016-12-25 02:19:21

标签: php regex

我想从一个字符串中捕获三个子字符串,该字符串必须包含这三个子字符串模式:

  1. 生日(所有带yyyymmdd格式的数字)
  2. ID号码(以字符开头,后跟数字)
  3. 全名
  4. 如果三个子字符串模式不可用,则不会返回匹配。

    模式样本:

    XD079523 ALFRED ROMEO 19830311
    ALFRED BETA GAMMA 19830311 AD929523
    BETA FERNANDEZ AS079523 19830311
    19830311 BETA MAX  AS079523
    KK079523 19830311 ANGEL MARINA VINES
    19830121 BX079523 VINCENT EVERHART
    

    我已经尝试了以下正则表达式:

    /(?=.*\b([a-z]{1,2}\d+)\b)(?=.*\b(\d+)\b)(?=.*((?:\b[a-z]+\b\s*)+)).+/mi
    

    测试:https://regex101.com/r/iypQuC/1

    使用上述模式,我可以成功捕捉生日&身份证号码,而不是全名。该模式仅捕获全名中的最后一个单词。

    对此有何建议?

    感谢。

1 个答案:

答案 0 :(得分:4)

问题显然是因为(?=.*((?:\b[a-z]+\b\s*)+))中的exploit the same back-door。您可以通过将.*放在后面,让?使所需的单词变得懒散。我会另外建议重构该部分以获得更好的准确性:

^(?=.*?\b([a-z]{1,2}\d+)\b)(?=.*?\b(\d+)\b)(?=.*?\b([a-z]+(?:\h+[a-z]+)*)\b).+
  • 进一步使所有.*懒惰.*?(也是为了更好的表现)
  • 添加了^锚点,仅在启动时触发前瞻

greediness