从MS Word文档中获取干净的语义XHTML的最佳方法是什么?

时间:2009-12-18 15:54:31

标签: css xhtml ms-word dreamweaver content-management

前几天我收到了一份相当冗长且有些精心设计的MS Word文档,我被要求转换为HTML以便上传到第三方的网站。我的第一直觉是将Word文档保存为HTML并使用Dreamweaver的“清理Word HTML”命令。但是我不仅要让Dreamweaver彻夜不眠地完成“清洁”,但结果在我看来远非理想。还有很多剩下的内联样式,Dreamweaver很容易错过。

我今天早上以不同的方式接近它,只是在Word中选择了整个文档,将其复制,然后将其粘贴到Dreamweaver的“设计”窗口中。它不仅更快,更快,而且输出代码更清晰!我不必在后面运行“清理Word HTML”命令。

由于标准原因,我现在不会将Word文件直接转换为HTML。相反,我在Word和Dreamweaver之间剪切和粘贴内容。幸运的是,我可以做到以下几点。

  1. 如果Word标题位于标题1样式中,它将成为Dreamweaver中的H1(遵循Dreamweaver样式表)。类似地,标题2变为H2,标题3变为H3,等等。

    如果Word作者不是那么有条理,您可以在Mac上使用Control + 1(或Command + 1)之类的快捷方式将任何行转换为H1。你能猜出H2的快捷方式吗?是的,它是Mac上的Control + 2或Command + 2.

  2. 段落现在剪切并粘贴为段落(带有P标记)。如果您当时不想要HTML段落,则使用Control + 0(或Mac上的Command + 0)在Dreameaver中删除它。

  3. 我发现的一个新内容是,当您从Word复制并粘贴时,Word中的某些嵌入图像可能会作为“剪辑”图像传输到Dreamweaver站点。因此,如果您有一个包含嵌入图像的Word文件,您可以通过Dreamweaver快速提取它们。

  4. 我还发现这个免费工具很有用http://www.textfixer.com/html/convert-word-to-html.php它与Dreamweaver的设计视图一样,对没有Dreamweaver的人很有用。

    但我们得到的代码取决于MS Word文档的格式是否正确?

    WORD 2007还有像html一样的风格吗?

    标题,表格,有序和无序列表,粗体,斜体,超链接等?

    如何在语义上使用word 2007?

    • 获取最大可能的语义html 在另存为html选项

    • 为了获得最大可能的干净代码 在Dreamweaver设计视图中复制?

    • 为了获得最大可能的干净代码 基于浏览器的WYSIWYG HTML
      每个CMS附带的编辑器

    有没有人知道在语义上格式化MS WORD文档的任何提示,技巧,教程,文章或建议?

    还是比我更好的其他方式?

5 个答案:

答案 0 :(得分:3)

  • HTML Tidy有以下选项:word-2000bareclean

  • FCKEditor和类似的尝试清理从Word粘贴的代码。

  • 现在(现在已经很老了)demoroniser

然而不要指望奇迹。 Word文档不太可能具有不错的结构(理论上可以,但没有Word用户对此感到烦恼)。如果没有语义信息,这些程序就无法添加语义信息。

对于Word中的语义编辑 - 使用样式。它正确地支持标题(遗憾的是没有多少)。您可以在大纲视图中检查它。

您不需要 - 也不应使用 - 空格或换行符进行缩进或空间调整。 Word能够明确控制段落的填充。

答案 1 :(得分:1)

我发现OpenOffice.org html生成器(在OO中打开.doc并另存为HTML)比在Office中的MS更好。

它仍然不完美,但提供更清晰的HTML,让人看得更清晰。

答案 2 :(得分:0)

没有可靠的方法来清理WORD文档并将它们变成漂亮的HTML。如果文档有任何特殊字符,它们通常被编码为Windows字符集而不是UTF-8,因此它们只是在网上显示时“中断”。名单还在继续。你经常最终会感到愚蠢:

<strong>hello</strong><strong>th<strong>er</strong>e</strong><i></i>

唯一可以放弃的方法是将其粘贴到记事本中并手动标记。您可以编写一些宏来执行诸如在段落中插入<p></p>之类的操作,但这就是它。

如果需要从Word上线的大量材料,您可能最好使用PDF。

答案 3 :(得分:0)

你试过这个吗? Word Cleaner

答案 4 :(得分:0)

试试我们的Doc To HTML Converter软件。它专门用于生成最大可能的清晰(X)HTML代码,并具有许多可自定义的选项。它需要在您的系统上安装MS Word。它不是免费的,但它有30天的试用期。