Question

鉴于我在表单中有一些HTML：

<html>
  <body>
    <div id="1" class="c">some other html stuff</div>
  </body>
</html>

如何使用Unix脚本解压缩？

some other html stuff

Answer 1

您可以签出html-xml-utils和hxselect命令，该命令允许您提取与CSS选择器匹配的元素：

hxselect '.c' < test.htm

这假定您的输入是格式良好的XML文档。如果不是，您可能需要使用正则表达式和possible consequences。

Answer 2

对于简单用途，您可以使用Ex编辑器，例如：

$ ex +'/<div/norm vity' +'%d|pu 0|%p' -scq! file.html
some other html stuff

找到div标记，然后选择找到的标记的内部HTML标记（vit），将其标记（y）以便用它替换缓冲区（{{1 }，%delete），然后打印它（put 0），然后退出（%print）。

使用演示网址的其他示例：

-cq!

优点是$ ex +'/<div/norm vity' +'%d|pu 0|%p' -Nscq! http://example.com/是大多数Linux / Unix发行版中可用的标准Unix编辑器。

另见：