将pdf表格中的数据提取为结构化格式

时间:2018-04-17 10:09:21

标签: python scraper pdftotext pdf-scraping

我想以任何结构化格式(如html,xml,json)来抓取pdf表数据。 我正在使用python。我首先使用pdftotext命令行函数将pdf转换为文本。但是我无法区分pdf中表格的数据。

pdf图像如下所示:

enter image description here

1 个答案:

答案 0 :(得分:0)

您可以使用Camelot从PDF提取表格数据并将其导出为CSV,Excel,JSON或HTML。您可以在http://camelot-py.readthedocs.io上查看文档。如果您可以将链接发布到PDF,则将很有帮助。这是一个通用的代码示例:

>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables.export('file.csv', f='csv')

免责声明:我是图书馆的作者。