使用正则表达式删除没有插件的html标签

时间:2013-10-24 18:43:15

标签: java regex

所以我试图在java中删除包含html标签的每个部分接受<p></p>

我试过这个接受我无法得到正确的结束标签。我试过(/// p)似乎无法抓住它。

"<[^(p>)>]+>.*?<[^(///p>)>]+>"

实施例

<p> should stay </p> <html> shouldn't stay</html>

输出

<p> should stay </p>

1 个答案:

答案 0 :(得分:3)

使用正则表达式来操纵HTML是一个坏的,坏的,坏主意。使用正则表达式解析HTML / XML将召唤Cthulu。你的灵魂将被Cthulu吃掉。 Cthulu的另一个名字是RegexHtmlParser。

最好使用xpath提取所有段落标记。否则,一个允许你走DOM并拉出段落标签的HTML解析器是你唯一真正的选择。