有什么方法可以从pdf文件中提取和解析数据?

时间:2019-08-29 08:32:44

标签: python pdf feature-extraction

我正在尝试从具有不同格式的pdf文件中提取数据。 pdf中可能有多个表,并且表中的数据也可能采用以下格式:

特征:价值

我想创建一个以所有要素名称为列的pandas数据框,并附加成千上万个pdf的所有值,并删除不相关的信息,例如地址和站点数据。想象一下,pdf就像是购买了产品的账单,并且它们还指定了产品的参数和信息。那就是我要提取的。

我尝试过PyPDF2,骆驼和表格。所有这些工具都只是以一种混乱的方式将数据提取到数据帧中。我尝试自己构建一个函数,但它仅适用于特定的pdf结构,并且我对一般性内容更感兴趣。

import camelot
from camelot.core import TableList
tables = camelot.read_pdf('file.pdf')
tables[0].parsing_report
tables[0].df

代码为您提供了一个没有标题且具有以下结构的数据框:

0 1 2

变量:值变量:值变量:值 变量:值变量:值变量:值 变量:值变量:值变量:值 变量:值变量:值变量:值

0 个答案:

没有答案