Tabula-py无法提取表的某些内容

时间:2019-03-06 22:53:28

标签: pdf tabula-py

我正在尝试通过tabula-py从pdf文件中提取表格以进行学术研究。我部分能够做到。

问题在于,pandas数据框不包含特定类型单元格的pdf文件中的信息。原始的pdf文件将近2000页,但我仅在此处包括第一页。

我的pdf文件如下:A snapshot of the table I want to get

这是我的代码。

df = tabula.read_pdf(path, lattice = True, stream = False, pages = '1-10', pandas_options={'names':varlist}, encoding = "utf-8")
df = df.replace('\r',' ', regex=True)
df = df.replace('\xad', '')

此外,这也是我从上面的代码中获得的数据帧。抱歉,尽管尝试了其他方法,但无法正确粘贴数据。我只显示前三列。

0 CJRA表8–悬而未决的议案报告... NaN NaN
1美国哥伦比亚特区地方法院NaN NaN
2办公室文件号NOS码
3 1 08­cv­00226 895
4 NaN NaN NaN
5 NaN NaN NaN
6个地区法院法官案件:STAMP,FREDER ... NaN 2
7 *与提项中列出的第一项同时提起... NaN NaN
8 NaN NaN NaN
9 1 of 1,828运行:10/06/2010 NaN NaN

如您所见,索引为1的行的第一单元格与PDF表格的第二行的信息不同。在pdf文件中,我看到了巡回法庭的名称和法官的姓名,在数据框中,我看到了法院的名称。其他所有条目都是正确的。

可能是什么问题?预先非常感谢。

0 个答案:

没有答案