如何从纯C ++中的MS word文档文件中提取纯文本?

时间:2011-11-24 04:26:42

标签: c++

是否有任何纯C ++库可以从.doc文件中提取纯文本?

我正在开发一个C ++程序来读取.doc和.pdf文件。我必须从文件中提取纯文本并将其写入.txt文件。

4 个答案:

答案 0 :(得分:3)

您可以查看Abiword使用的开源C库wv

您还可以呼叫批量转换工具

答案 1 :(得分:1)

如果您想操作/读取.doc文件,您可以花时间学习格式并手动操作.doc文件。你可以在MSDN page linking to the format-specification (PDF file)获得它 我承认,这是一个相当多的阅读,但如果你想创建软件来操作/读取文件,你应该有相关的基础知识来支持它。

pdf格式也是如此(这是一种开放格式,因此很容易找到这样的规格)。

答案 2 :(得分:1)

对于doc - 使用Word object model转到文档并提取文本。这个example使用OLE Automation和C.另一个可能对你有用的link for DOCX

对于PDF - 使用Haru

答案 3 :(得分:1)

你总是可以使用现在由oracle拥有的OIVT(我认为是OutsideIn Viewer Technology)。

我会说实话,这不是一个便宜的解决方案,虽然这个产品是允许你查看,打印等...我想如果我没记错,他们确实提供了一个选项来提取内容到文本或他们是另一种产品。它可以从几乎任何文档类型中执行此操作,包括doc,docx,pdf(仅举几例),而不必使用安装的“原始”应用程序,因为它们有自己的过滤器集。

这是一个让你入门的链接

Outside In Viewer Technolog

祝你好运