我想阅读一份格式如下的pdf文件 -
data.pdf
Jan1 Jan2 Jan3 Jan4 Jan5 total
ABC 1.0 2.0 3.0 4.0 5.0 15.0
PQR 1 2 3 4 5 15
XYZ 2 2 2 2 2 10
我试图使用python pandas读取此文件,但我还没有取得任何成功。其实我想用csv格式转换这个文件,如下所示 -
output.csv
names,Jan1,Jan2,Jan3,Jan4,Jan5,total
ABC,1.0,2.0,3.0,4.0,5.0,15.0
PQR,1,2,3,4,5,15
XYZ,2,2,2,2,2,10
我已经尝试pdfminer,但没有取得任何成功。它的html输出只给我空白页。
他们是否可以使用python pandas读取pdf文件,或者我们可以将pdf转换为任何格式然后使用python pandas读取它吗?
答案 0 :(得分:0)
如果你安装了tabula,那么:
from tabula import read_pdf
data = read_pdf('data.pdf')
然后你可以打印你的数据
print (df)
我希望这会对你有所帮助!