我正在尝试解析年度报告的公司,这些公司采用pdf格式(来自annualreports.com)。我已经下载了大约5000份pdf文档,每篇文档都包含文本和表格数据。我希望提取这些pdf文档中的财务数据表,并将它们保存到Excel文件。
我尝试过基于Tabula,PyPDF2,Regexp和NLTK的解决方案 然而,每次,我的解决方案中都会出现误报(未检测到的字符,未提取的pdf中的正确页面等)。这个问题有没有python解决方案?也愿意用其他语言探索解决方案(比如VBA?)
以下是我正在处理的文件的几个例子
http://annualreports.com/HostedData/AnnualReportArchive/a/NYSE_ATEN_2015.pdf
http://annualreports.com/HostedData/AnnualReportArchive/a/NASDAQ_AEIS_2016.pdf
http://annualreports.com/HostedData/AnnualReportArchive/A/LSE_ALM_2016.pdf
感谢您的时间!