正则表达式用于html标签中的新行

时间:2019-05-09 06:28:41

标签: php regex

如果具有带有p标签的html属性而没有属性,并且正则表达式为:

,我正在使用正则表达式替换p标签。

$html = preg_replace("/<p[^>]*>(.+?)<\/p>/i", "<p>$1</p>", $html);

如果p标签没有像这样的任何新行,则正则表达式运行良好

<p style="text-align: center;">It is a long established fact that a reader will be distracted by the readable content of a page when looking at its layout</p>

但是,当p标签有换行符时,以上正则表达式将无法正常工作。例如

<p style="text-align: center;">It is a long established fact that a reader will be
distracted by the readable <br />
content of a page when looking at its layou</p>

那么有人可以建议在上述正则表达式中需要进行哪些更改,以便如果p标签包含包含新行的字符串,它们可以正常工作?

2 个答案:

答案 0 :(得分:1)

如果您必须,请使用

$html = preg_replace("/<p[^>]*>(.+?)<\/p>/is", "<p>$1</p>", $html);
#                                          ^

启用singleline模式,又名点也匹配换行符。但是,通常的警告是不要在HTML标记上使用正则表达式。
参见a demo on regex101.com

答案 1 :(得分:0)

要使用DOM解析器,使用DOMDocument和loadHTML()很简单。

这将加载文档,然后使用getElementsByTagName()选择所有<p>标签。然后针对找到的每个标签,检查它是否具有属性,并在需要时将其删除...

$doc = new DOMDocument();
$doc->loadHTML($html);

$pTags = $doc->getElementsByTagName("p");
foreach ( $pTags as $p )    {
    if ( $p->hasAttributes() )  {
        foreach ( $p->attributes as $attribute )    {
            $p->removeAttribute($attribute->nodeName );
        }
    }
}

// Save/echo the resultant HTML
echo $doc->saveHTML();