如何使用可能的多行字符串解析列分隔的键值文本

时间:2014-04-11 12:16:26

标签: php regex parsing preg-match-all

我需要解析以下文字:

First: 1
Second: 2
Multiline: blablablabla
bla2bla2bla2
bla3b and key: value in the middle if strting
Fourth: value

Value是一个字符串OR多行字符串,同时value可以包含" key:blablabla"子。应该忽略这样的子字符串(不作为单独的键值对解析)。

请帮我使用正则表达式或其他算法。

理想的结果是:

$regex = "/SOME REGEX/";
$matches = [];
preg_match_all($regex, $html, $matches);
// $mathes has all key and value parsed pairs, including multilines values

谢谢。

我尝试使用简单的正则表达式,但结果不正确,因为我不知道如何处理多行:

$regex = "/(.+?): (.+?)/";
$regex = "/(.+?):(.+?)\n/";
...

2 个答案:

答案 0 :(得分:5)

您可以使用此模式执行此操作:

$pattern = '~(?<key>[^:\s]+): (?<value>(?>[^\n]*\R)*?[^\n]*)(?=\R\S+:|$)~';

preg_match_all($pattern, $txt, $matches, PREG_SET_ORDER);

print_r($matches);

答案 1 :(得分:1)

你可以这样做,只要你考虑在一行开头跟一个冒号后面的单个单词作为一个新的关键开始:

$data = 'First: 1
Second: 2
Multiline: blablablabla
bla2bla2bla2
bla3b and key: value in the middle if strting
Fourth: value';

preg_match_all('/^([a-z]+): (.*?)(?=(^[a-z]+:|\z))/ims', $data, $matches);

var_dump($matches);

这给出了以下结果:

array(4) {
  [0]=>
  array(4) {
    [0]=>
    string(10) "First: 1
"
    [1]=>
    string(11) "Second: 2
"
    [2]=>
    string(86) "Multiline: blablablabla
bla2bla2bla2
bla3b and key: value in the middle if strting
"
    [3]=>
    string(13) "Fourth: value"
  }
  [1]=>
  array(4) {
    [0]=>
    string(5) "First"
    [1]=>
    string(6) "Second"
    [2]=>
    string(9) "Multiline"
    [3]=>
    string(6) "Fourth"
  }
  [2]=>
  array(4) {
    [0]=>
    string(3) "1
"
    [1]=>
    string(3) "2
"
    [2]=>
    string(75) "blablablabla
bla2bla2bla2
bla3b and key: value in the middle if strting
"
    [3]=>
    string(5) "value"
  }
  [3]=>
  array(4) {
    [0]=>
    string(7) "Second:"
    [1]=>
    string(10) "Multiline:"
    [2]=>
    string(7) "Fourth:"
    [3]=>
    string(0) ""
  }
}