Question

我正在将网站转换为PDF，但是其中有图像，并且所有图像都有一个文本，点击后会让您自己成像。

我认为这将是负责显示该文本的代码，因为我在其中一个文件中删除了它，文本和链接不再显示。

<div class="v1"><a target="_self" href="images/graphics/1.jpg">[View full size image]</a></div>

问题是大约有200多个HTML文档包含这个类似的文字，只是改变了href。

有没有任何简单的方法可以摆脱所有这一切而不必一个接一个地去？也许是sed的正则表达式？

Answer 1

如果表达式总是在一行上，唯一的区别在于href，sed是一种可能的解决方案：

sed -e 's,<div class="v1"><a target="_self" href="[^"]*">\[View full size image\]</a></div>,,'

我使用了替代分隔符,，因此不必在结束标记中转义/。但是，链接文本中的括号需要进行转义。

Answer 2

是的，正则表达式可能是最简单的解决方案。如果只是从所有文件中删除此行的问题，那么我只需在编辑器中打开它们（Sublime Text 2做得好）并执行正则表达式搜索和替换。以下搜索模式可能会起作用：

<div class=\"v1\"><a target=\"_self\" href=\"[^"]+\">\[View full size image\]</a></div>