Question

我正在尝试从具有不同格式的pdf文件中提取数据。 pdf中可能有多个表，并且表中的数据也可能采用以下格式：

特征：价值

我想创建一个以所有要素名称为列的pandas数据框，并附加成千上万个pdf的所有值，并删除不相关的信息，例如地址和站点数据。想象一下，pdf就像是购买了产品的账单，并且它们还指定了产品的参数和信息。那就是我要提取的。

我尝试过PyPDF2，骆驼和表格。所有这些工具都只是以一种混乱的方式将数据提取到数据帧中。我尝试自己构建一个函数，但它仅适用于特定的pdf结构，并且我对一般性内容更感兴趣。

import camelot
from camelot.core import TableList
tables = camelot.read_pdf('file.pdf')
tables[0].parsing_report
tables[0].df

代码为您提供了一个没有标题且具有以下结构的数据框：

0 1 2

变量：值变量：值变量：值变量：值变量：值变量：值变量：值变量：值变量：值变量：值变量：值变量：值