我正在将网站转换为PDF,但是其中有图像,并且所有图像都有一个文本,点击后会让您自己成像。
我认为这将是负责显示该文本的代码,因为我在其中一个文件中删除了它,文本和链接不再显示。
<div class="v1"><a target="_self" href="images/graphics/1.jpg">[View full size image]</a></div>
问题是大约有200多个HTML文档包含这个类似的文字,只是改变了href
。
有没有任何简单的方法可以摆脱所有这一切而不必一个接一个地去?也许是sed
的正则表达式?
答案 0 :(得分:1)
如果表达式总是在一行上,唯一的区别在于href
,sed
是一种可能的解决方案:
sed -e 's,<div class="v1"><a target="_self" href="[^"]*">\[View full size image\]</a></div>,,'
我使用了替代分隔符,
,因此不必在结束标记中转义/
。但是,链接文本中的括号需要进行转义。
答案 1 :(得分:0)
是的,正则表达式可能是最简单的解决方案。如果只是从所有文件中删除此行的问题,那么我只需在编辑器中打开它们(Sublime Text 2做得好)并执行正则表达式搜索和替换。以下搜索模式可能会起作用:
<div class=\"v1\"><a target=\"_self\" href=\"[^"]+\">\[View full size image\]</a></div>