我想将doc / docx文档转换为语义HTML。
一些愿望/要求:
语义HTML,使得文档中的标题是< h1>,< h2>等等,表格是< table>等等。
最好能够处理标题,列表,表格和图像。图形和数学公式是一个很好的额外。
•不必直接从doc / docx转换为html,可以使用中间格式,例如xml或docbook。
•应该以编程方式工作,并且包含大量文档。
到目前为止,我发现的最接近解决方案的是http://holloway.co.nz/docvert/index.html,但不幸的是,有很多错误,用户群很小,而且无法处理大量文档。更多的概念证明。
答案 0 :(得分:2)
“文档中的标题是”
我认为这是不可能的。
因为MS Word只记下结果,使用不同的<p>
样式
就像在纸上打印的文字一样,原始信息不会被记录下来。
可以接近你的其他愿望。 有两种商业工具可以做到这一点 (不要相信那些免费工具或在线工具,他们不做真正的工作。)
Zapadoo的1字清洁工
www.zapadoo.com
2奇迹Studio的Word清洁工具
www.htmlcleaner.com
我更喜欢去年发布的第二个。你可以尝试两种方式。
答案 1 :(得分:1)
有一个名为upCast的工具可以将Word文档转换为XML。
答案 2 :(得分:1)
我编写了一个实用程序来实现您列出的要求,不包括图像,图形和数学公式。它的测试质量(即它可以在我的机器上运行)。我是在http://www.modeltext.com/word
发表的答案 3 :(得分:1)
docx4j(仅适用于docx,不是doc)编写干净的HTML输出。如果你想要的话,你需要稍微改变一下&lt; h1&gt;而不是&lt; p class =“h1”&gt;,而是它的开源,所以你可以这样做。
答案 4 :(得分:0)
更多想法。
使用Gmail转换word文档
http://www.oreillynet.com/mac/blog/2006/05/use_gmail_to_convert_word_docs.html