PHP-正则表达式,用于删除字符串中除日期以外的所有内容

时间:2019-02-28 10:21:05

标签: php regex date

我正在从数据库中提取一些数据,以将其输出到.csv文件中。这些输出的行可能包含也可能不包含两个日期,这些日期具有多种不同的格式,包括:

YYYY-MM-DD (2019-02-01)
DD.MM.YYYY (01.02.2019)
D.M.YYYY (1.2.2019)
DD.MM.YY (01.02.19)
D.MM.YY (1.02.19)
D.MM.YYYY (1.02.2019)

这两个日期通常位于字符串的结尾,但是在少数情况下,日期位于字符串的中间。 这是从数据库输出的一些示例行:

Product 1, 1.10.2018 - 31.12.2018 just a test string
Product 2 15.12.18-23.6.19

我现在想做的是,如果从字符串中找到两个日期,则以一种格式(DD.MM.YYYY)解析这两个日期。

如果在字符串中找不到日期,则可以暂时忽略该行。 到目前为止,这是我尝试过的:

<?php

        function contains_date($str) {
          if (preg_match('/\b(\d{4})-(\d{2})-(\d{2})\b/', $str, $matches)) {
            if (checkdate($matches[2], $matches[3], $matches[1])) {
              return true;
            }
          }
          return false;
        }

        $i = 0;
        $table = [];
        while($row = $stmt->fetch()) {
        if(contains_date($row['product'])) {
          $product = preg_replace('/\s+/', '', $row['product']);
          $date = substr($product, -21);
          $periodStart = date('d.m.Y', strtotime(substr($date, 0, 10)));
          $periodEnd = date('d.m.Y', strtotime(substr($date, 11)));

        }

        $table[$i]['product'] = $row['product'];
        $table[$i]['startDate'] = $periodStart;
        $table[$i]['endDate'] = $periodEnd;

        $i++;
        }
        ?>

在日期为YYYY-MM-DD格式且在字符串末尾找到两个日期的情况下,此方法适用。 它并不涵盖日期格式不同的所有情况 也不在字符串中间找到日期。任何帮助将不胜感激!

1 个答案:

答案 0 :(得分:2)

您可以使用名称相同的组将一个正则表达式匹配不同的日期格式:

$rx = '/(?J)(?<!\d)(?:(?<year>\d{4})-(?<month>\d{1,2})-(?<day>\d{1,2})|(?<day>\d{1,2})\.(?<month>\d{1,2})\.(?<year>\d{2}(?:\d{2})?))(?!\d)/';

请参见regex demo

兴趣点

  • 使用J修饰符启用一个模式中名称相同的组
  • 在正则表达式开始处的(?<!\d)负向后看会取消数字后的匹配(它匹配的位置不是紧跟在数字之后)
  • 正则表达式末尾的
  • (?!\d)否定前瞻会取消一个数字前的匹配(它匹配的位置不是紧随其后的数字)

PHP demo

$strs = ['YYYY-MM-DD (2019-02-01)', 'DD.MM.YYYY (01.02.2019)', 'D.M.YYYY (1.2.2019)','DD.MM.YY (01.02.19)','D.MM.YY (1.02.19)','D.MM.YYYY (1.02.2019)','Product 1, 1.10.2018 - 31.12.2018 just a test string','Product 2 15.12.18-23.6.19' ];
$rx = '/(?J)(?<!\d)(?:(?<year>\d{4})-(?<month>\d{1,2})-(?<day>\d{1,2})|(?<day>\d{1,2})\.(?<month>\d{1,2})\.(?<year>\d{2}(?:\d{2})?))(?!\d)/';
foreach ($strs as $s) {
    echo "INPUT: $s\n";
    if (preg_match_all($rx, $s, $matches, PREG_SET_ORDER, 0)) {
        foreach ($matches as $m) {
            echo "DAY: " . $m["day"] . "\nMONTH: " . $m["month"] . "\nYEAR: " . $m["year"] . "\n\n";
        }
    }
}

输出:

INPUT: YYYY-MM-DD (2019-02-01)
DAY: 01
MONTH: 02
YEAR: 2019

INPUT: DD.MM.YYYY (01.02.2019)
DAY: 01
MONTH: 02
YEAR: 2019

INPUT: D.M.YYYY (1.2.2019)
DAY: 1
MONTH: 2
YEAR: 2019

INPUT: DD.MM.YY (01.02.19)
DAY: 01
MONTH: 02
YEAR: 19

INPUT: D.MM.YY (1.02.19)
DAY: 1
MONTH: 02
YEAR: 19

INPUT: D.MM.YYYY (1.02.2019)
DAY: 1
MONTH: 02
YEAR: 2019

INPUT: Product 1, 1.10.2018 - 31.12.2018 just a test string
DAY: 1
MONTH: 10
YEAR: 2018

DAY: 31
MONTH: 12
YEAR: 2018

INPUT: Product 2 15.12.18-23.6.19
DAY: 15
MONTH: 12
YEAR: 18

DAY: 23
MONTH: 6
YEAR: 19