应用错误收集

提取嵌入在pdf文档中的财务表

时间：2018-06-05 11:52:45

标签： python excel pdf extract financial

我正在尝试解析年度报告的公司，这些公司采用pdf格式（来自annualreports.com）。我已经下载了大约5000份pdf文档，每篇文档都包含文本和表格数据。我希望提取这些pdf文档中的财务数据表，并将它们保存到Excel文件。

我尝试过基于Tabula，PyPDF2，Regexp和NLTK的解决方案然而，每次，我的解决方案中都会出现误报（未检测到的字符，未提取的pdf中的正确页面等）。这个问题有没有python解决方案？也愿意用其他语言探索解决方案（比如VBA？）

以下是我正在处理的文件的几个例子

http://annualreports.com/HostedData/AnnualReportArchive/a/NYSE_ATEN_2015.pdf
http://annualreports.com/HostedData/AnnualReportArchive/a/NASDAQ_AEIS_2016.pdf http://annualreports.com/HostedData/AnnualReportArchive/A/LSE_ALM_2016.pdf

感谢您的时间！

0 个答案:

没有答案