我需要删除所有不在标签<p>
和</p>
之间的文本。每个单元格中可以有许多<p>
标签。 <p>
之前和</p>
之后的内容在每一行中都是不同的。
示例
<h1>Curly Krans Daggdroppar 30cm LED</h1><h2>Beskrivning</h2><div id="more_info_sheets" class="sheets align_justify"><div id="idTab1" class="rte"><div id="more_info_sheets" class="sheets align_justify"><div id="idTab1" class="rte"><p>En krans med en snygg och intressant design. </p><p>Kransen har 30st ej utbytbara små LED lampor.</p><p>Finns i tre olika färger, välj mellan, koppar, mässing och krom.</p></div></div></div></div>
应该是
<p>En krans med en snygg och intressant design. </p><p>Kransen har 30st ej utbytbara små LED lampor.</p><p>Finns i tre olika färger, välj mellan, koppar, mässing och krom.</p>
有人知道该怎么做吗?
答案 0 :(得分:0)
您可以使用match表达式仅捕获所需的
标签组,而不用替换其余文本。但是,这是常规表达式的另一种选择:
匹配您的所有p组
<p>.*<\/p>
分别匹配每个p组
<p>.*?<\/p>
匹配非p个组
(^.*?(?=<p>))|((?<=<\/p>)<[^p].*)