所以我试图在java中删除包含html标签的每个部分接受<p></p>
。
我试过这个接受我无法得到正确的结束标签。我试过(/// p)似乎无法抓住它。
"<[^(p>)>]+>.*?<[^(///p>)>]+>"
实施例
<p> should stay </p> <html> shouldn't stay</html>
输出
<p> should stay </p>
答案 0 :(得分:3)
使用正则表达式来操纵HTML是一个坏的,坏的,坏主意。使用正则表达式解析HTML / XML将召唤Cthulu。你的灵魂将被Cthulu吃掉。 Cthulu的另一个名字是RegexHtmlParser。
最好使用xpath提取所有段落标记。否则,一个允许你走DOM并拉出段落标签的HTML解析器是你唯一真正的选择。