Question

如果此问题不适合本网站，请提前道歉。

我在Microsoft Word中编写了一些文档，我还需要在网站上以HTML格式显示。为此，我需要将这些文档的内容输入到带有HTML标记的数据库中。例如，这就是我需要放入数据库的内容：

<h1>Document Title</h1>
<p>This is the introduction paragraph for the document</p>
<ol>
<li>This is a summary point</li>
</ol>

我的问题是将Microsoft Word保存为HTML页面会增加额外的标记（主要是内联CSS的表示），我很难将其删除到基本的HTML结构，如上例所示。

那么如何保持离线和在线内容同步？我想避免制作同一文档的两个版本（一个在Word中，一个在HTML中），因为保持它们同步将很困难。

可以将MS Word设置为保存为HTML而不进行任何表示格式化吗？或者我应该使用不同的软件吗？

Answer 1

如果文档数量有限且您可以使用手动过程进行转换，可能会有一些免费的在线服务，例如word2cleanhtml.com，www.textfixer.com或document.online-convert.com为您提供帮助。

但是如果你想自动化这个过程，你必须知道docx格式实际上是一个zip文件，其中包含文档的所有元素（图像，表格，文本等）。这些项目归类在子文件夹下，大多数都是XML格式。因此，您可以使用解释here的技术从docx文件中提取所需内容。

还有一些已知的商业和开源库，可让您操作或提取docx个文件的内容。像Apache POI或OpenOffice这样的API是开源项目的示例，Aspose Word for Java是商业产品，是该领域最好的API之一。

Answer 2

根据经验，我建议坚持使用Word save-to-html方法。删除mso标签的难度比新引入的问题的任何其他替代解决方案的问题更难以克服。

有很多javascript富文本编辑器FCKEditor和TinyMCE都会删除单词标签 - 我建议看看这些，这些插件是开源的吗？

Answer 3

感谢您的回复。我尝试了各种在线转换器，但他们从未正确转换列表。编号列表被放入<p>元素中，这是错误的。最后，我发现了如何轻松地完成它....

将整个Word文档复制并粘贴到Adobe Dreamweaver中。然后进入代码视图，您将看到Dreamweaver已经精美地应用了正确，干净的HTML标记！

Answer 4

如果您使用ColdFusion，则可以使用DocExtactor http://docxextractor.riaforge.org/

您可以访问所有来源，因此可以对其进行修改以获取所需的HTML格式

免责声明：我写了