我想以任何结构化格式(如html,xml,json)来抓取pdf表数据。
我正在使用python。我首先使用pdftotext
命令行函数将pdf转换为文本。但是我无法区分pdf中表格的数据。
pdf图像如下所示:
答案 0 :(得分:0)
您可以使用Camelot从PDF提取表格数据并将其导出为CSV,Excel,JSON或HTML。您可以在http://camelot-py.readthedocs.io上查看文档。如果您可以将链接发布到PDF,则将很有帮助。这是一个通用的代码示例:
>>> import camelot
>>> tables = camelot.read_pdf('file.pdf')
>>> type(tables[0].df)
<class 'pandas.core.frame.DataFrame'>
>>> tables.export('file.csv', f='csv')
免责声明:我是图书馆的作者。