我正在尝试从pdf中提取内容。并希望从中创建一个excel表。请找到以下代码。
import pdfquery
pdf = pdfquery.PDFQuery('C:\\Users\\Santosh\\Downloads\\2017-San-Jamar-
Price-List-US-Z120913E-RevA.pdf')
page = pdf.get_page(3)
page_content = page.extractText()
print (page_content)
它会抛出以下错误:
AttributeError Traceback (most recent call last)
<ipython-input-32-d6b615faa422> in <module>()
1 page = pdf.get_page(3)
----> 2 page_content = page.extractText()
3 print (page_content)
AttributeError: 'PDFPage' object has no attribute 'extractText'
请告诉我一个可能的解决方案。
感谢。
答案 0 :(得分:1)
使用PyPDF2代替pdfquery
import PyPDF2
pdfFileObj = open('C:\\Users\\Santosh\\Downloads\\2017-San-Jamar-
Price-List-US-Z120913E-RevA.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
page = pdfReader.getPage(3)
print(page.extractText())