鉴于我在表单中有一些HTML:
<html>
<body>
<div id="1" class="c">some other html stuff</div>
</body>
</html>
如何使用Unix脚本解压缩?
some other html stuff
答案 0 :(得分:3)
您可以签出html-xml-utils和hxselect
命令,该命令允许您提取与CSS选择器匹配的元素:
hxselect '.c' < test.htm
这假定您的输入是格式良好的XML文档。如果不是,您可能需要使用正则表达式和possible consequences。
答案 1 :(得分:1)
对于简单用途,您可以使用Ex编辑器,例如:
$ ex +'/<div/norm vity' +'%d|pu 0|%p' -scq! file.html
some other html stuff
找到div
标记,然后选择找到的标记的内部HTML标记(vit
),将其标记(y
)以便用它替换缓冲区({{1 },%delete
),然后打印它(put 0
),然后退出(%print
)。
使用演示网址的其他示例:
-cq!
优点是$ ex +'/<div/norm vity' +'%d|pu 0|%p' -Nscq! http://example.com/
是大多数Linux / Unix发行版中可用的标准Unix编辑器。
另见: