是否有任何纯C ++库可以从.doc文件中提取纯文本?
我正在开发一个C ++程序来读取.doc和.pdf文件。我必须从文件中提取纯文本并将其写入.txt文件。
答案 0 :(得分:3)
您可以查看Abiword使用的开源C库wv。
您还可以呼叫批量转换工具
答案 1 :(得分:1)
如果您想操作/读取.doc文件,您可以花时间学习格式并手动操作.doc文件。你可以在MSDN page linking to the format-specification (PDF file)获得它 我承认,这是一个相当多的阅读,但如果你想创建软件来操作/读取文件,你应该有相关的基础知识来支持它。
pdf格式也是如此(这是一种开放格式,因此很容易找到这样的规格)。
答案 2 :(得分:1)
对于doc - 使用Word object model转到文档并提取文本。这个example使用OLE Automation和C.另一个可能对你有用的link for DOCX。
对于PDF - 使用Haru。
答案 3 :(得分:1)
你总是可以使用现在由oracle拥有的OIVT(我认为是OutsideIn Viewer Technology)。
我会说实话,这不是一个便宜的解决方案,虽然这个产品是允许你查看,打印等...我想如果我没记错,他们确实提供了一个选项来提取内容到文本或他们是另一种产品。它可以从几乎任何文档类型中执行此操作,包括doc,docx,pdf(仅举几例),而不必使用安装的“原始”应用程序,因为它们有自己的过滤器集。
这是一个让你入门的链接
祝你好运