将大量word文档自动转换为xml,修改它们,然后将它们转换为latex,pdf,html

时间:2009-07-25 08:32:57

标签: html xml pdf latex ms-word

有一套约400个单词的文档是质量管理系统Word的一部分,这让我很难过,因为a)它处理大文档中的图像很差b)布局有时被破坏c)它很麻烦为不同的客户端配置文档。

我可以将单个文档保存为xml / html或文本,然后手动将它们转换为乳胶,但这对于400个文档是不可能的。我知道我可以使用像PrimoPDF这样的工具将word文档直接打印到pdf,但这不够灵活,因为我需要修改内容。

有没有办法将文档的结构保留为纯文本,标题,表格,图像并将其转换为XML?之后我想根据客户的选择将XML转换为html,latex和pdf,并修改内容? xslt是一种将xml转换为其他格式的方法吗?

感谢您的任何建议。

4 个答案:

答案 0 :(得分:2)

您可以将文档转换为Word 2007. Office 2007文档 XML文档:只需将文件扩展名更改为.zip和upzip。此外,Microsoft还发布了一个用于处理Office 2007文档的API,该文档比使用XML标记更高级。

答案 1 :(得分:1)

要将MS Word批量转换为其他内容,您可以查看OpenOffice.org。 OpenOffice有一个(命令行)批处理模式,用于批量转换。您还可以查看使用该机制转换文档的JodConverter

通过这种方式,您可以将Micrososoft Word大规模转换为OpenOffice.org支持的其他格式。也许是文本,也许是RTF,也许是OpenOffice XML。

然后您可以更轻松地转换为Latex格式。

在Stack Overflow上搜索Word和OpenOffice,您会找到this one about Word to Html conversion之类的结果。

答案 2 :(得分:0)

对Word< - >有建议TUG(TeX用户组)的LaTeX转换:

http://www.tug.org/utilities/texconv/pctotex.html

可能值得一看,看看是否有任何建议和方法符合您的要求。

答案 3 :(得分:0)

不确定它有多好,但有Word2tex