如何使用python pandas阅读表格式pdf文档?

时间:2017-06-06 06:44:47

标签: python csv pandas pdf

我想阅读一份格式如下的pdf文件 -

data.pdf

       Jan1 Jan2 Jan3 Jan4 Jan5 total
ABC    1.0  2.0  3.0  4.0  5.0  15.0
PQR    1    2    3    4    5    15
XYZ    2    2    2    2    2    10

我试图使用python pandas读取此文件,但我还没有取得任何成功。其实我想用csv格式转换这个文件,如下所示 -

output.csv

names,Jan1,Jan2,Jan3,Jan4,Jan5,total
ABC,1.0,2.0,3.0,4.0,5.0,15.0
PQR,1,2,3,4,5,15
XYZ,2,2,2,2,2,10

我已经尝试pdfminer,但没有取得任何成功。它的html输出只给我空白页。

他们是否可以使用python pandas读取pdf文件,或者我们可以将pdf转换为任何格式然后使用python pandas读取它吗?

1 个答案:

答案 0 :(得分:0)

如果你安装了tabula,那么:

from tabula import read_pdf
data = read_pdf('data.pdf')

然后你可以打印你的数据

print (df)

我希望这会对你有所帮助!