表格read_pdf将列名称中的单词分解为单独的列

时间:2020-09-02 19:19:45

标签: tabula

我正在使用表格读取PDF中的表格。

我发现read_pdf意外地破坏了表中的列名。例如,原始表格在pdf中如下所示:

Image of Table in PDF

但是,当我使用tabula.read_pdf()时,提取的数据框会分解列名称中的单词。看起来像这样:

Tabula dataframe extracted

请注意,当只有4个列时,它会找到8个单独的列。

我正在使用的选项是:

guess=False    
pandas_options={"header": None}    
lattice=False

0 个答案:

没有答案