用tabula-py读取带有空白单元格的表

时间:2019-09-18 07:11:24

标签: python pandas tabula-py

我正在尝试使用tabula-py从表格10-K加载一个大表(附带示例)到Python中。该表没有清晰的边框,并且有很多空白单元格,这会导致多个问题。

我的代码是

df = tabula.read_pdf("firm_xxx_10K.pdf", pages='100-101',guess=True,stream=True,columns=(144,210,300,340,380,420,450))

使用stream=True,我获得了所有数据,但是多行中的信息被识别为单独的条目。使用lattice=True,可以将具有多行的单元格正确地识别为一个单元格,但是现在结果缺少很多观察结果。

是否有更好的方法来设置选项?我尝试了很多选择,但现在我陷入了困境。任何帮助深表感谢。 最好,

Example of the Table I am Trying to Read

0 个答案:

没有答案