我正在尝试创建一个读取.docx文件的程序,并将其内容发布到博客/论坛供个人使用。我终于想出了如何使用libcurl(我想的)是程序中更难的部分。现在我只需要阅读.docx文件,但是遇到了麻烦。我似乎无法找到有关如何执行此操作的任何文档。有什么想法吗?
答案 0 :(得分:7)
最简单的方法是使用Word来执行此操作。它在许可方面有限制。
SO问题Creating, opening and printing a word file from C++有一些很好的参考。
修改强>
根据这些问题/答案可以解压缩Open XML文件并直接处理XML文件:
如果您使用.NET,则需要阅读更多(C#)问题:
答案 1 :(得分:1)
如果你想留在开源世界,OpenOffice 3应该能够处理.docx文件。有一个项目为许多语言实现API,我真的不知道它是多么完整或复杂。
PHP中有script可以从.docx转换为纯文本。也就是说,如果你不害怕所有的文件都是俄语)。这可能是另一种选择(通过系统调用触发php脚本并解析文件中的结果)