应用错误收集

如何使用pymupdf从pdf文件中提取表格

时间：2019-05-15 18:33:43

标签： python pdf

我的工作要求我使用pymupdf从pdf文件中提取表格并导出为csv格式。

2 个答案:

答案 0 :(得分：0)

恐怕你不走运。 PDF格式没有表结构的内部表示，这使得很难提取表进行分析。您必须通过查看数据列的排列位置来推断表的存在。

有些模块可以为您完成此任务：一个是Excalibur。但是pymupdf是关于将文本提取为文本，这将使您不得不进行解析和推断。那是一个雄心勃勃的项目。

答案 1 :(得分：0)

神剑是骆驼的GUI版本

安装 https://camelot-py.readthedocs.io/en/master/user/install.html

教程 https://camelot-py.readthedocs.io/en/master/

这应该为您完成工作。直接导出到csv。默认输出是一个数据框，可以将其导出到excel或csv