我正在尝试从具有不同格式的pdf文件中提取数据。 pdf中可能有多个表,并且表中的数据也可能采用以下格式:
特征:价值
我想创建一个以所有要素名称为列的pandas数据框,并附加成千上万个pdf的所有值,并删除不相关的信息,例如地址和站点数据。想象一下,pdf就像是购买了产品的账单,并且它们还指定了产品的参数和信息。那就是我要提取的。
我尝试过PyPDF2,骆驼和表格。所有这些工具都只是以一种混乱的方式将数据提取到数据帧中。我尝试自己构建一个函数,但它仅适用于特定的pdf结构,并且我对一般性内容更感兴趣。
import camelot
from camelot.core import TableList
tables = camelot.read_pdf('file.pdf')
tables[0].parsing_report
tables[0].df
代码为您提供了一个没有标题且具有以下结构的数据框:
0 1 2
变量:值变量:值变量:值 变量:值变量:值变量:值 变量:值变量:值变量:值 变量:值变量:值变量:值