如何清理microsoft html doc?

时间:2009-06-28 07:37:47

标签: html ms-word document

我有一个非常大的文档,采用Microsoft Word生成的html格式。它太乱了,充满了臃肿的东西(比如未知标签,未知名称空间等以及其他臃肿的东西)

有没有办法将它转换为普通的html sytax?

4 个答案:

答案 0 :(得分:6)

试试HTML Tidy。我听说它在MS Word生成的HTML上运行得很好(至少在Word 2000中,但也可能在更新的版本上)。

答案 1 :(得分:2)

这不是一个真正的编程问题,但是(至少是最新版本的)Word可以保存到“网页,已过滤”,这会删除特定于Office的标签和属性,并且只保留文档所需的标签在Web浏览器中呈现。因此,如果您有Word,则可以尝试使用它来打开HTML文档并以该格式保存。

答案 2 :(得分:2)

你可能正在寻找HTML Tidy,其中几乎所有语言都有适配器。它具有清理Microsoft Word HTML输出(以及许多其他功能)的选项。

答案 3 :(得分:1)

尝试Cleanup HTML在线工具来清理Word HTML