从PDF中提取数据并使用Python在Excel中填充

时间:2018-03-07 23:03:35

标签: python pandas

我需要一些建议............. 我正在使用Python编写程序,该程序将从PDF中读取数据,并且我应该在Excel工作表中填充相同的信息 现在我使用PyPDF 2来提取数据,我将使用Panda将数据存储在数据框中,然后将该数据框填充到Excel工作表中 我的行动路线是否有效,如果我的计划中有更好的方法或缺陷,请告诉我。

1 个答案:

答案 0 :(得分:0)

我认为它应该是这样的。

import PyPDF2
import openpyxl

pdfFileObj = open('C:/Users/Excel/Desktop/TABLES.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pdfReader.numPages

pageObj = pdfReader.getPage(0)
mytext = pageObj.extractText()


wb = openpyxl.load_workbook('C:/Users/Excel/Desktop/excel.xlsx')
sheet = wb.active
sheet.title = 'MyPDF'
sheet['A1'] = mytext

wb.save('C:/Users/Excel/Desktop/excel.xlsx')
print('DONE!!')

有关详细信息,请参阅以下链接。

http://automatetheboringstuff.com/chapter12/