Question

我正在尝试通过tabula-py从pdf文件中提取表格以进行学术研究。我部分能够做到。

问题在于，pandas数据框不包含特定类型单元格的pdf文件中的信息。原始的pdf文件将近2000页，但我仅在此处包括第一页。

我的pdf文件如下：

这是我的代码。

df = tabula.read_pdf(path, lattice = True, stream = False, pages = '1-10', pandas_options={'names':varlist}, encoding = "utf-8")
df = df.replace('\r',' ', regex=True)
df = df.replace('\xad', '')

此外，这也是我从上面的代码中获得的数据帧。抱歉，尽管尝试了其他方法，但无法正确粘贴数据。我只显示前三列。

0 CJRA表8–悬而未决的议案报告... NaN NaN
1美国哥伦比亚特区地方法院NaN NaN
2办公室文件号NOS码
3 1 08cv00226 895
4 NaN NaN NaN
5 NaN NaN NaN
6个地区法院法官案件：STAMP，FREDER ... NaN 2
7 *与提项中列出的第一项同时提起... NaN NaN
8 NaN NaN NaN
9 1 of 1,828运行：10/06/2010 NaN NaN

如您所见，索引为1的行的第一单元格与PDF表格的第二行的信息不同。在pdf文件中，我看到了巡回法庭的名称和法官的姓名，在数据框中，我看到了法院的名称。其他所有条目都是正确的。

可能是什么问题？预先非常感谢。

Tabula-py无法提取表的某些内容

0 个答案: