所以我要解析许多大文本段落。 最终目标是将段落分成较小的帖子,因此我可以将它们插入到mysql中。
以下是字符串中某个段落的简短示例:
<?php
$longstring = '
(<b>John Smith</b>) at <b class="datetimeGMT">2011-01-10 22:13:01 GMT</b><hr>
Lots of text entered here under the first line.<br>And most of it is html, since it is for displaying in a web browser.<br></br></br>
(<b>Alan Slappy</b>) at <b class="datetimeGMT">2011-01-11 13:12:00 GMT</b><hr>
Forgot to put one more thing in the notes.........<br>blah blah blah
(<b>Joe Mama</b>) at <b class="datetimeGMT">2011-01-13 10:15:00 GMT</b><hr>
Groceries list:<br>Watermelons<br>Floss<br><br>email doctor
';
?>
是的,我有一个奇怪的项目,为每个条目解析这些字符串。 是的,我同意任何人的观点,这不是一项很酷的任务。原始开发人员允许将文本附加到原始文本。对某些场合来说并不是一个坏主意,但对我来说却是。
我确实需要帮助如何RegEx这个野兽并将它放入foreach循环中,以便我可以开始清理它。
这是我走了多远:
<?php
if(preg_match_all('/\(<b>.*?<hr>/', $longstring, $matches)){
print_r($matches);
}
/* output:
Array
(
[0] => Array
(
[0] => (<b>John Smith</b>) at <b class="datetimeGMT">2011-01-10 22:13:01 GMT</b><hr>
[1] => (<b>Alan Slappy</b>) at <b class="datetimeGMT">2011-01-11 13:12:00 GMT</b><hr>
[2] => (<b>Joe Mama</b>) at <b class="datetimeGMT">2011-01-13 10:15:00 GMT</b><hr>
)
)
*/
?>
所以,我实际上在循环每个条目的顶部做得很好。我有点自豪我想到了这一点。 (正则表达式是我的克星)
所以现在我不知道如何在每次迭代下包含实际文本。
任何人都知道我如何调整preg_match_all
来解释每个“标题”下面的文字?
答案 0 :(得分:1)
尝试使用preg_split:
$matches = preg_split("/\s*(\(<b>.*?<hr>)\s*/s", trim($longstring), null, PREG_SPLIT_NO_EMPTY | PREG_SPLIT_DELIM_CAPTURE);
print_r($matches);
注意:修剪会应用于字符串以剪切前导和尾随空格。
结果将类似于
Array
(
[0] => (<b>John Smith</b>) at <b class="datetimeGMT">2011-01-10 22:13:01 GMT</b><hr>
[1] => Lots of text entered here under the first line.<br>And most of it is html, since it is for displaying in a web browser.<br></br></br>
[2] => (<b>Alan Slappy</b>) at <b class="datetimeGMT">2011-01-11 13:12:00 GMT</b><hr>
[3] => Forgot to put one more thing in the notes.........<br>blah blah blah
[4] => (<b>Joe Mama</b>) at <b class="datetimeGMT">2011-01-13 10:15:00 GMT</b><hr>
[5] => Groceries list:<br>Watermelons<br>Floss<br><br>email doctor
)
答案 1 :(得分:0)
如果您解析HTML而不是仅仅尝试正则表达式,这将更容易,除非您可以保证HTML的格式。
答案 2 :(得分:0)
试试这个
if(preg_match_all('/\(<b>(?:(?!\(<b>).)*/s', $longstring, $matches)){
print_r($matches);
}