减少生成的HTML大小的工具

时间:2009-01-19 16:40:39

标签: html scripting google-docs mshtml

我正在使用谷歌文档,我们使用的一些模板是使用MS-Office创建的 由此产生的HTML既肥胖又丑陋,谷歌每个文档限制500KB都需要进行一些清理。 我能够找到多余的“样式”属性并将它们移动到某个CSS类,并将最多余的类名重命名为较短的类,这使我节省了原始大小的50%左右。
你是否知道一些现有的工具/脚本/库可以为我做这个痛苦的工作,或者至少帮助我编写这个神奇的工具?

提前致谢!

编辑:我尝试了整理,demoronizer和“手动重写”:
- 输入:140Kb
- 整洁:110Kb
- 非殖民化:135Kb

所以我最喜欢的答案是“重写它!”

谢谢!

4 个答案:

答案 0 :(得分:3)

你可以试试tidy它会清理很多东西。

答案 1 :(得分:3)

MS-Office制作糟糕的HTML,期间。你最好花时间从原始文本重建HTML,而不是试图穿过那个雷区。

我做了一些宏,在Word上执行一些搜索/替换功能来做基本的事情,比如在段落和类似的东西上包装<p>标签,然后从头开始重新标记整个事物。

答案 2 :(得分:0)

如果不对其名称进行评论,我可以提及demoronizer,作者将其描述为:

  

...可以从此站点下载的Perl程序,它可以纠正由Microsoft应用程序生成或编辑的HTML中的大量错误和不兼容性。

因人而异。

答案 3 :(得分:0)

我最喜欢的一个实用程序现在实际上是Windows Live Writer - 它可以很好地从Word文档文件中删除垃圾。有些人可能不同意,但我经常使用它!