.doc到纯文本转换器

时间:2011-12-21 12:43:42

标签: c++

是否有可用于将MSWord .doc / .docx文件转换为纯文本格式的c / c ++开源库?

4 个答案:

答案 0 :(得分:3)

你可以看看这个(类似的问题):

How to extract plain text from MS word document file in pure C++?

答案 1 :(得分:2)

这些实际上不是库,但可能仍然有用。我知道antiwordcatdoc有2个控制台应用程序。 Antiword是GPL,catdoc源也可用,但我不确定许可证。这些是用C语言编写的,所以应该可以使用C ++中的这些。

答案 2 :(得分:2)

如果所有其他方法都失败了,.docx文件实际上是一个包含多个目录的ZIP文件。其中一个目录中的一个文件中包含文档文本,带有标记的XML。您必须处理一些标记,因为它们标记了行结束,但大多数标记标记了自动更正标记各种内容的位置,或标记格式化的随机分布的5级深嵌套标记。

(我必须在没有Internet访问权限的机器上手动执行此操作。有人使用Office 2011保存了一个文件,并希望在Office 2005左右在好友的地方打开它。)

答案 3 :(得分:1)

我不知道有关此任务的库,但也许您可以从Antiword中提取重要位。我不确定Antiword是否会处理docx。