应用错误收集

时间：2019-04-29 08:16:12

标签： python pdf python-3.6 ocr extract

搜索了很多，但是由于找不到此类问题的解决方案，因此在同一问题上发布了明确的问题。大多数答案都涉及图像/文本提取，相对来说比较容易。

我需要分别从PDF中提取表格和图形作为文本（csv）和图像。

任何人都可以通过高效的python 3.6代码来帮助我解决相同问题吗？

到目前为止，我可以使用startmark = b“ \ xff \ xd8”和endmark = b“ \ xff \ xd9”来提取jpg，但并非PDF中的所有表和图形都是纯jpg，因此我的代码在实现这一目标。

例如，我想从第11页中提取表格，并从第12页中提取图形，作为图像或从以下给定链接中可行的内容。怎么做？

答案 0 :(得分：0)

要提取表，您可以使用camelot

这里是article。

答案 1 :(得分：0)

尝试使用PyMuPdf（https://github.com/pymupdf/PyMuPDF/tree/1.18.3）合并文本，条，线和轴。它有很多额外的实用程序。