有一套约400个单词的文档是质量管理系统Word的一部分,这让我很难过,因为a)它处理大文档中的图像很差b)布局有时被破坏c)它很麻烦为不同的客户端配置文档。
我可以将单个文档保存为xml / html或文本,然后手动将它们转换为乳胶,但这对于400个文档是不可能的。我知道我可以使用像PrimoPDF这样的工具将word文档直接打印到pdf,但这不够灵活,因为我需要修改内容。
有没有办法将文档的结构保留为纯文本,标题,表格,图像并将其转换为XML?之后我想根据客户的选择将XML转换为html,latex和pdf,并修改内容? xslt是一种将xml转换为其他格式的方法吗?
感谢您的任何建议。
答案 0 :(得分:2)
您可以将文档转换为Word 2007. Office 2007文档是 XML文档:只需将文件扩展名更改为.zip
和upzip。此外,Microsoft还发布了一个用于处理Office 2007文档的API,该文档比使用XML标记更高级。
答案 1 :(得分:1)
要将MS Word批量转换为其他内容,您可以查看OpenOffice.org。 OpenOffice有一个(命令行)批处理模式,用于批量转换。您还可以查看使用该机制转换文档的JodConverter。
通过这种方式,您可以将Micrososoft Word大规模转换为OpenOffice.org支持的其他格式。也许是文本,也许是RTF,也许是OpenOffice XML。
然后您可以更轻松地转换为Latex格式。
在Stack Overflow上搜索Word和OpenOffice,您会找到this one about Word to Html conversion之类的结果。
答案 2 :(得分:0)
对Word< - >有建议TUG(TeX用户组)的LaTeX转换:
http://www.tug.org/utilities/texconv/pctotex.html
可能值得一看,看看是否有任何建议和方法符合您的要求。
答案 3 :(得分:0)
不确定它有多好,但有Word2tex。