如何删除几个HTML文件上的类似片段?

时间:2012-10-23 09:33:39

标签: html regex sed

我正在将网站转换为PDF,但是其中有图像,并且所有图像都有一个文本,点击后会让您自己成像。

我认为这将是负责显示该文本的代码,因为我在其中一个文件中删除了它,文本和链接不再显示。

<div class="v1"><a target="_self" href="images/graphics/1.jpg">[View full size image]</a></div>

问题是大约有200多个HTML文档包含这个类似的文字,只是改变了href

有没有任何简单的方法可以摆脱所有这一切而不必一个接一个地去?也许是sed的正则表达式?

2 个答案:

答案 0 :(得分:1)

如果表达式总是在一行上,唯一的区别在于hrefsed是一种可能的解决方案:

sed -e 's,<div class="v1"><a target="_self" href="[^"]*">\[View full size image\]</a></div>,,' 

我使用了替代分隔符,,因此不必在结束标记中转义/。但是,链接文本中的括号需要进行转义。

答案 1 :(得分:0)

是的,正则表达式可能是最简单的解决方案。如果只是从所有文件中删除此行的问题,那么我只需在编辑器中打开它们(Sublime Text 2做得好)并执行正则表达式搜索和替换。以下搜索模式可能会起作用:

<div class=\"v1\"><a target=\"_self\" href=\"[^"]+\">\[View full size image\]</a></div>