我正在使用Python 3.6和PyPDF2库。我正在尝试从PDF文件提取文本。
它对某些文件有效,但对其他PDF文件却有警告。
这是我正在使用的代码:
import PyPDF2
with open('myfile.pdf','rb') as pdf_file, open('mytextresult.txt', 'w') as text_file:
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
for page_number in range(number_of_pages):
page = read_pdf.getPage(page_number)
print(page_number)
page_content = page.extractText()
text_file.write(page_content)
我得到正确的页码,但页面内容一无所获。
我有以下警告:
PdfReadWarning: Xref table not zero-indexed. ID numbers for objects will be corrected. [pdf.py:1736]
我尝试了strict=false
或忽略了警告,但它并没有改变任何内容,但我仍然不满意。