提取嵌入在pdf文档中的财务表

时间:2018-06-05 11:52:45

标签: python excel pdf extract financial

我正在尝试解析年度报告的公司,这些公司采用pdf格式(来自annualreports.com)。我已经下载了大约5000份pdf文档,每篇文档都包含文本和表格数据。我希望提取这些pdf文档中的财务数据表,并将它们保存到Excel文件

我尝试过基于Tabula,PyPDF2,Regexp和NLTK的解决方案 然而,每次,我的解决方案中都会出现误报(未检测到的字符,未提取的pdf中的正确页面等)。这个问题有没有python解决方案?也愿意用其他语言探索解决方案(比如VBA?)

以下是我正在处理的文件的几个例子

http://annualreports.com/HostedData/AnnualReportArchive/a/NYSE_ATEN_2015.pdf
http://annualreports.com/HostedData/AnnualReportArchive/a/NASDAQ_AEIS_2016.pdf http://annualreports.com/HostedData/AnnualReportArchive/A/LSE_ALM_2016.pdf

感谢您的时间!

0 个答案:

没有答案