删除除链接和<p>和</p>之外的所有HTML标记

时间:2012-08-08 05:47:18

标签: html regex

我正在尝试编写正则表达式来删除所有HTML,但链接和<p>以及</p>除外。

现在,我可以删除除links之外的所有HTML代码,但我不知道如何同时保留links tagp代码?

顺便说一下,有人可以推荐一些关于如何学习正则表达式的书吗?

3 个答案:

答案 0 :(得分:1)

必须不使用正则表达式解析HTML(如herehere所示),原因是HTML可以,并且无法很好地形成。

您将需要使用专门的框架来执行您需要的操作,如果您使用的是Java,则可以尝试JSoup,对于C#,有HTML Agility Pack,而对于PHP,则有Simple DOM Parser。 3}}

答案 1 :(得分:0)

标准回复:远离正则表达式并备份。您使用 NOT 使用正则表达式来操作HTML。 HTML不是常规语言,因此使用正则表达式无法可靠地处理HTML。请参阅以下最终答案:RegEx match open tags except XHTML self-contained tags

答案 2 :(得分:0)

您编写什么编程语言代码?如果您使用PHP,它支持一个很好的API:http://php.net/manual/en/function.strip-tags.php