是否有免费的方式通过VBA读取PDF文件以提取基本文本内容?我需要在我的公司自动执行每周数据采集过程,其中数据包含在PDF文件中(数据提供者每周更新一次)。另外,是否有一个我可以研究的参考来理解PDF的文件结构(DOM?)?
答案 0 :(得分:3)
Adobe的PDF参考在线:http://www.adobe.com/devnet/pdf/pdf_reference.html
我不确定直接从VBA读取PDF的最佳方法,但如果您可以调用外部Java或C#程序,那么我建议您使用iText basic text extraction。
编辑:我应该提一下,Adobe的PDF参考是一个800页的野兽。我发现查找特定问题的答案(例如,存储嵌入的truetype字体的宽度)是有好处的,但它可能不是一个好的起点。为此,阅读iText book帮助我开始了格式化。答案 1 :(得分:1)
IText书包含许多一般PDF任务的工作示例和大量背景信息,可帮助您理解PDF文件。它不仅能够很快收回成本!