使用sed

时间:2018-08-04 19:15:26

标签: linux bash shell sed html-parsing

我有一个html文件:

<div id="date">Saturday 04.08.18<br><div id="time">23<img src="media/images/sec.gif">59</div></div>

并且我想从html文件中删除此完整元素,但是值每分钟都在变化(因为是时间)

我曾经尝试过从另一个人那里编辑过此命令,但是它不起作用。

sed -z -r -i 's#<div id="date">[^<]*</div></div>\n?##g' 1.htm

我认为这可能不起作用,因为在元素中开始了另一个html元素?

1 个答案:

答案 0 :(得分:1)

以下是一种可能的解决方案:

sed -r -e 's#<div id="date">.*</div></div>\n?##g' 1.htm

它的作用基本上是用空字符串替换包含div id的date标记的行,后跟大于零(或等于)的字符,并以两个结束的div标记结尾,再加上新行char