在我的程序中,我应该从pdf文件中逐字逐字地阅读并将evry字放在数据库中。我怀疑,我可以这样做吗?然后我决定将pdf文件转换为带转换器的MS WORD文件,然后从该文件中读取。
现在我仍然不知道如何从MS Word文件中逐字逐句阅读。 我在我的程序中使用C ++ / MFC。
如果你给我一个示例代码,那对我很有帮助,我会非常感谢你。
答案 0 :(得分:0)
查看IFilter。 http://msdn.microsoft.com/en-us/library/ms691105%28v=vs.85%29.aspx
它是一个COM接口,用于从文件中提取文本(每个扩展都有其COM根据您的需要返回的DLL)。
C#中的示例:http://www.codeproject.com/KB/cs/IFilter.aspx或http://www.codeproject.com/KB/string/pdf2text.aspx(我在原生c ++中使用它,但我没有代码示例......)。
请注意,对于PDF,您可能需要关闭PDF IFilter:http://www.adobe.com/support/downloads/detail.jsp?ftpID=2611
祝你好运!
答案 1 :(得分:0)
如果您可以转换源文件并且只需要字符,那么将其设为纯文本文件并使用std::ifstream
读取。
要从MS Word文件中获取更多软化信息,您应该使用Office Automation。以下问题的答案中有很好的联系: