Question

我正在使用Python 3.6和PyPDF2库。我正在尝试从PDF文件提取文本。

它对某些文件有效，但对其他PDF文件却有警告。

这是我正在使用的代码：

import PyPDF2
with open('myfile.pdf','rb') as pdf_file, open('mytextresult.txt', 'w') as text_file:
    read_pdf = PyPDF2.PdfFileReader(pdf_file)
    number_of_pages = read_pdf.getNumPages()
    for page_number in range(number_of_pages):   
        page = read_pdf.getPage(page_number)
        print(page_number)
        page_content = page.extractText()
        text_file.write(page_content)

我得到正确的页码，但页面内容一无所获。

我有以下警告：

PdfReadWarning: Xref table not zero-indexed. ID numbers for objects will be corrected. [pdf.py:1736]

我尝试了strict=false或忽略了警告，但它并没有改变任何内容，但我仍然不满意。

如何解决外部参照表索引问题

0 个答案: