将doc / docx转换为语义HTML

时间:2009-08-26 15:06:57

标签: html xml ms-word docx docbook

我想将doc / docx文档转换为语义HTML。

一些愿望/要求:

  1. 语义HTML,使得文档中的标题是< h1>,< h2>等等,表格是< table>等等。

  2. 最好能够处理标题,列表,表格和图像。图形和数学公式是一个很好的额外。

  3. •不必直接从doc / docx转换为html,可以使用中间格式,例如xml或docbook。

    •应该以编程方式工作,并且包含大量文档。

    到目前为止,我发现的最接近解决方案的是http://holloway.co.nz/docvert/index.html,但不幸的是,有很多错误,用户群很小,而且无法处理大量文档。更多的概念证明。

5 个答案:

答案 0 :(得分:2)

“文档中的标题是” 我认为这是不可能的。 因为MS Word只记下结果,使用不同的<p>样式 就像在纸上打印的文字一样,原始信息不会被记录下来。

可以接近你的其他愿望。 有两种商业工具可以做到这一点 (不要相信那些免费工具或在线工具,他们不做真正的工作。)

Zapadoo的1字清洁工 www.zapadoo.com
2奇迹Studio的Word清洁工具 www.htmlcleaner.com

我更喜欢去年发布的第二个。你可以尝试两种方式。

答案 1 :(得分:1)

有一个名为upCast的工具可以将Word文档转换为XML。

答案 2 :(得分:1)

我编写了一个实用程序来实现您列出的要求,不包括图像,图形和数学公式。它的测试质量(即它可以在我的机器上运行)。我是在http://www.modeltext.com/word

发表的

答案 3 :(得分:1)

docx4j(仅适用于docx,不是doc)编写干净的HTML输出。如果你想要的话,你需要稍微改变一下&lt; h1&gt;而不是&lt; p class =“h1”&gt;,而是它的开源,所以你可以这样做。

答案 4 :(得分:0)