Question

我需要删除所有不在标签和之间的文本。每个单元格中可以有许多标签。 之前和之后的内容在每一行中都是不同的。

示例

<h1>Curly Krans Daggdroppar 30cm LED</h1><h2>Beskrivning</h2><div id="more_info_sheets" class="sheets align_justify"><div id="idTab1" class="rte"><div id="more_info_sheets" class="sheets align_justify"><div id="idTab1" class="rte"><p>En krans med en snygg och intressant design. </p><p>Kransen har 30st ej utbytbara små LED lampor.</p><p>Finns i tre olika färger, välj mellan, koppar, mässing och krom.</p></div></div></div></div>

应该是

<p>En krans med en snygg och intressant design. </p><p>Kransen har 30st ej utbytbara små LED lampor.</p><p>Finns i tre olika färger, välj mellan, koppar, mässing och krom.</p>

有人知道该怎么做吗？

Answer 1

您可以使用match表达式仅捕获所需的

标签组，而不用替换其余文本。但是，这是常规表达式的另一种选择：

匹配您的所有p组

<p>.*<\/p>

分别匹配每个p组

<p>.*?<\/p>

匹配非p个组

(^.*?(?=<p>))|((?<=<\/p>)<[^p].*)

正则表达式，不删除标签之间的文本

1 个答案: