无法识别表格

时间:2019-02-28 15:39:09

标签: python pandas tabula python-camelot

import pandas as pd
from tabula import read_pdf
FileName="Filepath"
DF3=read_pdf(FileName,multiple_tables=True,options="--pages 'all'", lattice= True)
print DF3

import pandas as pd
import camelot
FileName="Filepath"
tables = camelot.read_pdf(FileName,pages='1-end')
print tables

如果表格分布在多个页面上并且水平边框被切开,则无法使用表格将PDF文件中的表格作为数据框读取,因此无法将其识别为表格。我该如何解决?我可以仅使用垂直线来检测表格吗?

也尝试了新软件包camelot,但同样无法读取该列。

我只能在示例pdf中检测到一张表格,而未检测到2x2表格

示例pdf链接:https://onedrive.live.com/?id=690704CAD1449D85%21105&cid=690704CAD1449D85

1 个答案:

答案 0 :(得分:0)

到目前为止,Camelot还没有实现合并多页表的实现。我的建议是将表提取为数据框,然后将其与pd.concat手动合并。

您也可以尝试使用Tabula。