我正在使用谷歌文档,我们使用的一些模板是使用MS-Office创建的
由此产生的HTML既肥胖又丑陋,谷歌每个文档限制500KB都需要进行一些清理。
我能够找到多余的“样式”属性并将它们移动到某个CSS类,并将最多余的类名重命名为较短的类,这使我节省了原始大小的50%左右。
你是否知道一些现有的工具/脚本/库可以为我做这个痛苦的工作,或者至少帮助我编写这个神奇的工具?
提前致谢!
编辑:我尝试了整理,demoronizer和“手动重写”:所以我最喜欢的答案是“重写它!”
谢谢!
答案 0 :(得分:3)
你可以试试tidy它会清理很多东西。
答案 1 :(得分:3)
MS-Office制作糟糕的HTML,期间。你最好花时间从原始文本重建HTML,而不是试图穿过那个雷区。
我做了一些宏,在Word上执行一些搜索/替换功能来做基本的事情,比如在段落和类似的东西上包装<p>
标签,然后从头开始重新标记整个事物。
答案 2 :(得分:0)
如果不对其名称进行评论,我可以提及demoronizer,作者将其描述为:
...可以从此站点下载的Perl程序,它可以纠正由Microsoft应用程序生成或编辑的HTML中的大量错误和不兼容性。
因人而异。
答案 3 :(得分:0)
我最喜欢的一个实用程序现在实际上是Windows Live Writer - 它可以很好地从Word文档文件中删除垃圾。有些人可能不同意,但我经常使用它!