我正在尝试通过tabula-py从pdf文件中提取表格以进行学术研究。我部分能够做到。
问题在于,pandas数据框不包含特定类型单元格的pdf文件中的信息。原始的pdf文件将近2000页,但我仅在此处包括第一页。
这是我的代码。
df = tabula.read_pdf(path, lattice = True, stream = False, pages = '1-10', pandas_options={'names':varlist}, encoding = "utf-8")
df = df.replace('\r',' ', regex=True)
df = df.replace('\xad', '')
此外,这也是我从上面的代码中获得的数据帧。抱歉,尽管尝试了其他方法,但无法正确粘贴数据。我只显示前三列。
0 CJRA表8–悬而未决的议案报告... NaN NaN
1美国哥伦比亚特区地方法院NaN NaN
2办公室文件号NOS码
3 1 08cv00226 895
4 NaN NaN NaN
5 NaN NaN NaN
6个地区法院法官案件:STAMP,FREDER ... NaN 2
7 *与提项中列出的第一项同时提起... NaN NaN
8 NaN NaN NaN
9 1 of 1,828运行:10/06/2010 NaN NaN
如您所见,索引为1的行的第一单元格与PDF表格的第二行的信息不同。在pdf文件中,我看到了巡回法庭的名称和法官的姓名,在数据框中,我看到了法院的名称。其他所有条目都是正确的。
可能是什么问题?预先非常感谢。