将eregi_replace转换为preg_replace

时间:2009-11-30 07:07:43

标签: php regex pcre posix-ere

我正在尝试解析一些HTML代码段,并希望因各种原因进行清理(XSS等)。

我目前正在尝试删除任何标记上的所有属性,但锚点上的href除外。我使用一系列eregi_replace调用来做这个,但我确信有一种更聪明的方法可以使用preg_replace和几行代码来完成这项工作,但我无法让它工作。有人可以帮忙吗?

当前代码:

$data_item = eregi_replace("<p[^>]*>","<p>", $data_item);
$data_item = eregi_replace("<h2[^>]*>","<h2>", $data_item);
$data_item = eregi_replace("<h3[^>]*>","<h3>", $data_item);
$data_item = eregi_replace("<h4[^>]*>","<h4>", $data_item);
$data_item = eregi_replace("<h5[^>]*>","<h5>", $data_item);
$data_item = eregi_replace("<h6[^>]*>","<h6>", $data_item);
$data_item = eregi_replace("<ul[^>]*>","<ul>", $data_item);
$data_item = eregi_replace("<ol[^>]*>","<ol>", $data_item);
$data_item = eregi_replace("<li[^>]*>","<li>", $data_item);

$data_item = preg_replace("/<a([^>]*)( href=\S+)([^>]*)>/i", '<a$2 rel="nofollow">', $data_item);

(我只需解析HTML标签的一个子集,因此我删除了任何不受欢迎的内容)。

1 个答案:

答案 0 :(得分:3)

为什么不使用匹配任何标记的常规正则表达式,然后使用preg_replace_callback()来确定应该替换给定标记的内容?这样你就可以有一个简单的函数来检查匹配的标签是否是a标签,如果是,不要替换href,否则替换所有内容。

或者,您可以这样做:

$data_item = preg_replace("/<(p|h2|h3|h4|h5|h6|ul|ol)[^>]*>/i","<$1>", $dataitem);

正则表达式中的()组捕获匹配的标记类型时,|是匹配任何指定标记的“或”运算符,而$1位于替换文本用于替换模式中第一个(也是唯一的)捕获组匹配的内容。