匹配全文排除html,网址

时间:2012-06-25 22:58:40

标签: php regex full-text-search

我希望在html代码中匹配所有文本。 但只有带有所有标点符号的文字,但没有像html或urls等。

示例:

<div class="description">Boys loving girls</div>

匹配结果:

Boys loving girls

示例:

<div class="description">
guys loving girls! 
</div><br />

匹配结果:

guys loving girls!

我的尝试:

(?!.*(?:http:\/\/))^[a-z0-9():+,\-.@;\$_\!*\'%\?\säüöß%]+

1 个答案:

答案 0 :(得分:0)

请阅读How do you parse and process HTML/XML in PHP?以了解有关解析HTML内容的更多信息。

你不应该使用正则表达式来完成这类任务。


如果您仍想使用正则表达式,请尝试以下正则表达式模式:

$pattern = '/^(?!.*(?:https?|ftp):\/\/)(?:[^>]*>|)\s*([^<]+)(?:<.*|)\s*$/';