REGEX - 在结束标记和&之间替换文本开始标记

时间:2016-02-13 03:23:57

标签: regex powergrep

我想删除一个HTML标记的结尾和另一个HTML标记的开头之间的文本。

页面上的标签之间有不同的文字。当然,页面上也会删除多个不同的块。

</h1>
Section: ab (1)<br>Updated: 2015-05-01<br><a href="file:///home/gareththomasnz/Desktop/VirtualBoxShare/merged.html#2_index">Index</a>
<a href="file:///man/man2html">Return to Main Contents</a><hr>

<p>
<a name="2_lbAB">&nbsp;</a>
</p><h2>

必须删除整个页面中的/ H1和H2标签之间的所有内容。

尝试了一些事情,但无法让它发挥作用 - 任何建议?

2 个答案:

答案 0 :(得分:0)

http://sundstedt.se/blog/delete-specific-text-blocks-between-two-characters/

这是一个解决方案

删除任何字符之间的随机文本块而不使用正则表达式

答案 1 :(得分:0)

开启DOTALL并使用不情愿的量词:

Search: (?s)(?<=</h1>).*?(?=<h2>)
Replace: <blank>

注意:我不熟悉powergrep,所以它可能使用“斜杠分隔”的正则表达式语法,所以:

/(?<=</h1>).*?(?=<h2>)/s