如何在脚本中的特定HTML标记之间提取文本

时间:2012-05-29 06:59:12

标签: shell unix

鉴于我在表单中有一些HTML:

<html>
  <body>
    <div id="1" class="c">some other html stuff</div>
  </body>
</html>

如何使用Unix脚本解压缩?

some other html stuff

2 个答案:

答案 0 :(得分:3)

您可以签出html-xml-utilshxselect命令,该命令允许您提取与CSS选择器匹配的元素:

hxselect '.c' < test.htm

这假定您的输入是格式良好的XML文档。如果不是,您可能需要使用正则表达式和possible consequences

答案 1 :(得分:1)

对于简单用途,您可以使用Ex编辑器,例如:

$ ex +'/<div/norm vity' +'%d|pu 0|%p' -scq! file.html
some other html stuff

找到div标记,然后选择找到的标记的内部HTML标记(vit),将其标记(y)以便用它替换缓冲区({{1 },%delete),然后打印它(put 0),然后退出(%print)。

使用演示网址的其他示例:

-cq!

优点是$ ex +'/<div/norm vity' +'%d|pu 0|%p' -Nscq! http://example.com/ 是大多数Linux / Unix发行版中可用的标准Unix编辑器。

另见: