我有大量的HTML文件,其中一些包含以“todoModel
特定文字”开头并以<div>
结尾的部分。我想使用bash脚本删除这些部分。
还有许多其他</div>
部分,其中一些与我感兴趣的部分重叠。
我想浏览每个文件,输出到新文件,直到到达特定部分的开头;继续,递增和递减每个div
或<div>
的计数器,直到计数器达到零,然后恢复输出文件。
最适合用于此目的的方法是什么?速度不是优先考虑的事。
或者有更好的方法吗?
示例输入html:
</div>
删除
<html> <head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>Re: Something</title> <link rel="important stylesheet" href=""> <style>div.headerdisplayname {font-weight:bold;}</style></head> <body> <table border=0 cellspacing=0 cellpadding=0 width="100%" class="header-part1"><tr><td><div class="headerdisplayname" style="display:inline;">Subject: </div>Re: Something</td></tr><tr><td><div class="headerdisplayname" style="display:inline;">From: </div>sender@isp.com></td></tr><tr><td><div class="headerdisplayname" style="display:inline;">Date: </div>06/12/16 15:18</td></tr></table><table border=0 cellspacing=0 cellpadding=0 width="100%" class="header-part2"><tr><td><div class="headerdisplayname" style="display:inline;">To: </div>Sender 2 <sender2@isp.com></td></tr></table><br> <div class="moz-text-html" lang="x-unicode"><div dir="ltr">Dear Sender 2<div><br></div><div>A message</div><div><br></div><div>Mesage 1</div><div><ul><li>Message 2<br></li><li>Message 3<br></li><li>Message 4</li><li>Message 5<br></li><li>Message 6<br></li><li>Message 7<br></li><li>Message 8<br></li><li>Message 9<br></li></ul></div><div>Message 10</div><div><br></div><div>Message 11</div><div><br></div><div>Message 12</div><div><br></div><div>Message 13</div><div><br></div><div>Sender</div><div><br></div><div><br></div><div><br></div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On 5 December 2016 at 19:20, Sender 2 <span dir="ltr"><<a href="mailto:sender2@isp.com" target="_blank">sender2@isp.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><font color="black" face="Arial, Helvetica, sans-serif"> <div style="font-family:arial,helvetica;font-size:10pt;color:black"> <div> <font color="black" face="Arial, Helvetica, sans-serif">Dear Sender 1, <div><br> </div> <div>Reply 1</div> <div><br> </div> <div><br> </div> <div><br> </div> <div><br> </div> <div><br> </div> <div><br> </div> <div><br> </div> <div><br> </div> <div><br> </div> <div><br> </div> <div>Reply 2</div> <div><br> </div> <div>Sender 2</div><span class="HOEnZb"><font color="#888888"> <div><br> </div> <div>Sender 2</div> <div>+telephone</div> <div><br> </div> <div><br> </div> <div><br> </div> <div><br> </div> <div><br> </div> <div><br> </div> </font></span></font> </div> </div> </font></blockquote></div><br></div> </div></body> </html> </table></div>
class =“gmail_quote”&gt;
部分给出了输出:
<div
请注意,可能有多个嵌套部分要删除。