PHP preg_replace:使用正则表达式将文本中的所有锚标签替换为其href值

时间:2018-10-10 15:24:30

标签: php regex preg-replace

我想用其href值替换文本中的所有锚标记,但是我的模式无法正常工作。

$str = 'This is a text with multiple anchor tags. This is the first one: <a href="https://www.link1.com/" title="Link 1">Link 1</a> and this one the second: <a href="https://www.link2.com/" title="Link 2">Link 2</a> after that a lot of other text. And here the 3rd one: <a href="https://www.link3.com/" title="Link 3">Link 3</a> Some other text.';
$test = preg_replace("/<a\s.+href=['|\"]([^\"\']*)['|\"].*>[^<]*<\/a>/i",'\1', $str);
echo $test;

最后,文本应如下所示:

This is a text with multiple anchor tags. This is the first one: https://www.link1.com/ and this one the second: https://www.link2.com/ after that a lot of other text. And here the 3rd one: https://www.link3.com/ Some other text.

非常感谢您!

3 个答案:

答案 0 :(得分:3)

别这样。

改为使用解析器。

$dom = new DOMDocument();
// since you have a fragment, wrap it in a <body>
$dom->loadHTML("<body>".$str."</body>");
$links = $dom->getElementsByTagName("a");
while($link = $links[0]) {
    $link->parentNode->insertBefore(new DOMText($link->getAttribute("href")),$link);
    $link->parentNode->removeChild($link);
}
$result = $dom->saveHTML($dom->getElementsByTagName("body")[0]);
// remove <body>..</body> wrapper
$output = substr($result, strlen("<body>"), -strlen("</body>"));

Demo on 3v4l

答案 1 :(得分:0)

可能更简单,但更安全的方法是使用strpos循环字符串以查找和剪切字符串并删除html。

$str = 'This is a text with multiple anchor tags. This is the first one: <a class="funky-style" href="https://www.link1.com/" title="Link 1">Link 1</a> and this one the second: <a href="https://www.link2.com/" title="Link 2">Link 2</a> after that a lot of other text. And here the 3rd one: <a href="https://www.link3.com/" title="Link 3">Link 3</a> Some other text.';

$pos = strpos($str, '<a');

while($pos !== false){
    // Find start of html and remove up to link (<a href=")
    $str = substr($str, 0, $pos) . substr($str, strpos($str, 'href="', $pos)+6);
    // Find end of link and remove that.(" title="Link 1">Link 1</a>)
    $str = substr($str, 0, strpos($str,'"', $pos)) . substr($str, strpos($str, '</a>', $pos)+4);
    // Find next link if possible
    $pos = strpos($str, '<a');
}
echo $str;

https://3v4l.org/vdN7E

经过编辑以处理不同顺序的a标签。

答案 2 :(得分:0)

如果您仍然使用正则表达式,则应该可以使用:

preg_replace("/<a\s+href=['\"]([^'\"]+)['\"][^\>]*>[^<]+<\/a>/i",'$1', $str);

但是,使用Andreas发布的解决方案可能会更好。

仅供参考:您之前的正则表达式无法正常工作的原因是这个数字很小:

.*>

因为.会选择所有您最终匹配的内容,并将其替换为要替换的网址;一直到最后这就是为什么它似乎仅选择并替换找到的第一个锚标签并切断其余标签的原因。

更改为

[^\>]*

确保此特定选择仅限于字符串中位于url和a标记的结尾括号之间的部分。