我想删除一个HTML标记的结尾和另一个HTML标记的开头之间的文本。
页面上的标签之间有不同的文字。当然,页面上也会删除多个不同的块。
</h1>
Section: ab (1)<br>Updated: 2015-05-01<br><a href="file:///home/gareththomasnz/Desktop/VirtualBoxShare/merged.html#2_index">Index</a>
<a href="file:///man/man2html">Return to Main Contents</a><hr>
<p>
<a name="2_lbAB"> </a>
</p><h2>
必须删除整个页面中的/ H1和H2标签之间的所有内容。
尝试了一些事情,但无法让它发挥作用 - 任何建议?
答案 0 :(得分:0)
http://sundstedt.se/blog/delete-specific-text-blocks-between-two-characters/
这是一个解决方案
删除任何字符之间的随机文本块而不使用正则表达式
答案 1 :(得分:0)
开启DOTALL
并使用不情愿的量词:
Search: (?s)(?<=</h1>).*?(?=<h2>)
Replace: <blank>
注意:我不熟悉powergrep,所以它可能使用“斜杠分隔”的正则表达式语法,所以:
/(?<=</h1>).*?(?=<h2>)/s