Question

我想以任何结构化格式（如html，xml，json）来抓取pdf表数据。我正在使用python。我首先使用pdftotext命令行函数将pdf转换为文本。但是我无法区分pdf中表格的数据。

pdf图像如下所示：

Answer 1

您可以使用Camelot从PDF提取表格数据并将其导出为CSV，Excel，JSON或HTML。您可以在http://camelot-py.readthedocs.io上查看文档。如果您可以将链接发布到PDF，则将很有帮助。这是一个通用的代码示例：

>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables.export('file.csv', f='csv')

免责声明：我是图书馆的作者。

将pdf表格中的数据提取为结构化格式

1 个答案: