Question

所以我试图在java中删除包含html标签的每个部分接受<p></p>。

我试过这个接受我无法得到正确的结束标签。我试过（/// p）似乎无法抓住它。

"<[^(p>)>]+>.*?<[^(///p>)>]+>"

实施例

<p> should stay </p> <html> shouldn't stay</html>

输出

<p> should stay </p>

Answer 1

使用正则表达式来操纵HTML是一个坏的，坏的，坏主意。使用正则表达式解析HTML / XML将召唤Cthulu。你的灵魂将被Cthulu吃掉。 Cthulu的另一个名字是RegexHtmlParser。

最好使用xpath提取所有段落标记。否则，一个允许你走DOM并拉出段落标签的HTML解析器是你唯一真正的选择。