我有一千个HTML文件的集合,需要对它们进行一些修剪。我需要删除除<body></body>
之外的<div.pg>
区域内的所有标签,以使其打印干净。多余的是导航链接,使打印杂乱,使页面占用更多的纸张。内容不一样,所以我找不到并替换代码摘录,但标签是相同的例子,有3个<table>
标签要删除,每个标签都有特定的类。操纵批处理HTML文件中的特定标签?
任何批处理技术或软件来完成这项工作? 什么是Windows上的简单解决方案?
答案 0 :(得分:2)
我会在你拥有的每个html页面上使用xslt转换。批处理不是操纵html文件的工具。您可以使用批处理作为“管理器”将所需文件传递给xsl转换。 Windows还有一个基本的msxml实用程序,您可以下载并安装到您的计算机上:http://www.microsoft.com/download/en/details.aspx?displaylang=en&id=21714
我就是这样做的。我相信还有更多的选择。
答案 1 :(得分:0)
如果是XHTML,您可以使用XSLT将HTML转换为“其他”格式。请在此处查看示例:http://www.w3schools.com/xsl/或此处:http://help.hannonhill.com/discussions/how-do-i/269-strip-specific-html-tag-in-xslt