如何使用Python从PDF文件中提取图表/表格/图形?

时间:2019-04-29 08:16:12

标签: python pdf python-3.6 ocr extract

搜索了很多,但是由于找不到此类问题的解决方案,因此在同一问题上发布了明确的问题。大多数答案都涉及图像/文本提取,相对来说比较容易。

我需要分别从PDF中提取表格和图形作为文本(csv)和图像。

任何人都可以通过高效的python 3.6代码来帮助我解决相同问题吗?

到目前为止,我可以使用startmark = b“ \ xff \ xd8”和endmark = b“ \ xff \ xd9”来提取jpg,但并非PDF中的所有表和图形都是纯jpg,因此我的代码在实现这一目标。

例如,我想从第11页中提取表格,并从第12页中提取图形,作为图像或从以下给定链接中可行的内容。怎么做?

https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf

2 个答案:

答案 0 :(得分:0)

要提取,您可以使用camelot

这里是article

对于图片,我发现了这个问题并回答Extract images from PDF without resampling, in python?

答案 1 :(得分:0)

尝试使用PyMuPdf(https://github.com/pymupdf/PyMuPDF/tree/1.18.3)合并文本,条,线和轴。它有很多额外的实用程序。