用于剥离HTML标记和内容的正则表达式

时间:2014-05-20 02:33:52

标签: php html regex

我进行了搜索和搜索,由于某种原因,我无法找到任何解决方案。

这是我目前的文字:

Lorem ipsum <strong>dolor</strong> sit <i>amet</i>.

这就是我想要的:

Lorem ipsum sit.

想要使用HTML解析器。我只想使用一个简单的正则表达式来删除HTML标签及其内部内容。

3 个答案:

答案 0 :(得分:1)

与全局标志一起使用的正则表达式将匹配html标签内的html标签和文本。

<[\/\!]*?[^<>]*?>[A-Za-z0-9.,;:]*<[\/\!]*?[^<>]*?>

答案 1 :(得分:0)

虽然@ Tommy的回答对您有用,但regex对于您想要做的事情来说实在太复杂了。 您可以这样做:

$str = "Lorem ipsum <strong>dolor</strong> sit <i>amet</i>.";

$r = preg_replace("/ <\S*>/", "", $str);

echo $r;
#=> Lorem ipsum sit.

答案 2 :(得分:0)

preg_replace('/(<.*?>)|(&.*?;)/', '', $string)

这个对我很有用。它会删除所有HTML标记和特殊HTML字符。希望这会有所帮助。