如何从整齐的HTML中删除所有属性和类?

时间:2016-02-27 15:06:01

标签: html linux utility tidy

我有很多HTML文件,例如:

<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt">some text</P>
<TABLE class=MsoNormalTable style="BORDER-RIGHT: windowtext 1pt solid;" cellSpacing=0 cellPadding=0 width=568 border=1>
<TR style="HEIGHT: 12.75pt; mso-yfti-irow: 0; mso-yfti-firstrow: yes">
<TD style="BORDER-RIGHT: windowtext 1pt solid;" width=357 colSpan=2>text td</TD>
</TR>
</TABLE>

我需要从中删除所有属性和类,所以我得到:

<P>some text</P>
<TABLE>
<TR>
<TD>text td</TD>
</TR>
</TABLE>

我尝试了tidy实用程序,使用了不同的选项(drop-proprietary-attributes,word-2000),但无法获得干净的代码。

1 个答案:

答案 0 :(得分:0)

删除所有MS样式:

tidy --word-2000 true --bare true -o output.html input.htm 

我使用&#34; HTML Tidy for Linux版本5.1.25&#34;