应用错误收集

时间：2012-08-08 05:47:18

标签： html regex

我正在尝试编写正则表达式来删除所有HTML，但链接和<p>以及</p>除外。

现在，我可以删除除links之外的所有HTML代码，但我不知道如何同时保留links tag和p代码？

顺便说一下，有人可以推荐一些关于如何学习正则表达式的书吗？

答案 0 :(得分：1)

您必须不使用正则表达式解析HTML（如here和here所示），原因是HTML可以，并且无法很好地形成。

您将需要使用专门的框架来执行您需要的操作，如果您使用的是Java，则可以尝试JSoup，对于C＃，有HTML Agility Pack，而对于PHP，则有Simple DOM Parser。 3}}

答案 1 :(得分：0)

标准回复：远离正则表达式并备份。您使用 NOT 使用正则表达式来操作HTML。 HTML不是常规语言，因此使用正则表达式无法可靠地处理HTML。请参阅以下最终答案：RegEx match open tags except XHTML self-contained tags

答案 2 :(得分：0)

您编写什么编程语言代码？如果您使用PHP，它支持一个很好的API：http://php.net/manual/en/function.strip-tags.php