我一直在尝试提取pdf年度报告中嵌入的财务报表,并使用python将其以excel / CSV格式导出,但是我遇到了一些问题: 1.特定的财务报表可以在报告的任何页面上。如果要处理数百个pdf,则必须指定需要很多时间的页码。刮板是否可以通过任何方式知道确切的陈述在哪里? 2.一些报告跨越多个页面,并且在抓取pdf后的最终结果不是我想要的 3.不同的年度报告具有不同的财务报表格式。有什么方法可以处理它们并将其更改为特定的标准格式?
如果有人做了这样的事情并可以分享例子,我也将不胜感激。
Ps我正在使用python并使用了tabula和Camelot
答案 0 :(得分:0)
我有一个类似的案例,问题是要从pdf中提取特定的表格信息(姓名,出生日期等)。我使用tesseract open source software
和pytesseract
对文件执行OCR。由于我不需要整个pdf,而是需要它们中的特定信息,因此我设计了一种算法来查找信息:就我而言,我使用了简单的启发式方法(特定字段,特定行号和某些其他特定于域的内容),但是您也可以使用机器学习方法并训练可以找到所需文本部分的分类器。您也可以使用特定于域的启发式方法,因为我确信财务报表具有特殊的词汇或一些文本标记,可指示其开始/结束。
我希望至少能给您一些解决问题的方法
P.S .:使用tesseract,您还可以处理多页pdf。到3)-机器学习方法将需要一些样本来学习财务报表的外观的良好概括。