我正在尝试编写正则表达式来删除所有HTML,但链接和<p>
以及</p>
除外。
现在,我可以删除除links
之外的所有HTML代码,但我不知道如何同时保留links tag
和p
代码?
顺便说一下,有人可以推荐一些关于如何学习正则表达式的书吗?
答案 0 :(得分:1)
您必须不使用正则表达式解析HTML(如here和here所示),原因是HTML可以,并且无法很好地形成。
您将需要使用专门的框架来执行您需要的操作,如果您使用的是Java,则可以尝试JSoup,对于C#,有HTML Agility Pack,而对于PHP,则有Simple DOM Parser。 3}}
答案 1 :(得分:0)
标准回复:远离正则表达式并备份。您使用 NOT 使用正则表达式来操作HTML。 HTML不是常规语言,因此使用正则表达式无法可靠地处理HTML。请参阅以下最终答案:RegEx match open tags except XHTML self-contained tags
答案 2 :(得分:0)
您编写什么编程语言代码?如果您使用PHP,它支持一个很好的API:http://php.net/manual/en/function.strip-tags.php