如何解决外部参照表索引问题

时间:2019-04-15 14:00:51

标签: python-3.x pypdf2

我正在使用Python 3.6和PyPDF2库。我正在尝试从PDF文件提取文本。

它对某些文件有效,但对其他PDF文件却有警告。

这是我正在使用的代码:

import PyPDF2
with open('myfile.pdf','rb') as pdf_file, open('mytextresult.txt', 'w') as text_file:
    read_pdf = PyPDF2.PdfFileReader(pdf_file)
    number_of_pages = read_pdf.getNumPages()
    for page_number in range(number_of_pages):   
        page = read_pdf.getPage(page_number)
        print(page_number)
        page_content = page.extractText()
        text_file.write(page_content)

我得到正确的页码,但页面内容一无所获。

我有以下警告:

PdfReadWarning: Xref table not zero-indexed. ID numbers for objects will be corrected. [pdf.py:1736]

我尝试了strict=false或忽略了警告,但它并没有改变任何内容,但我仍然不满意。

0 个答案:

没有答案