python pdf(PyPDF2模块) - 如何拆分/合并这个?

时间:2016-09-03 06:58:02

标签: python pypdf2

我试图拆分&合并pdf文件,以便我可以删除每个pdf文件的第一页..这是代码。

    #python3

    #split and merge pdf files!


    import os, PyPDF2

    pdfFiles = []
    os.chdir('C:\\Users\\Cyber\\Downloads\\5-111-fall-2008\\5-111-fall-2008\\contents\\readings-and-lecture-notes')



    for filename in os.listdir('.'):
        if filename.endswith('pdf'):
            pdfFiles.append(filename)

    pdfWriter = PyPDF2.PdfFileWriter()

    for filename in pdfFiles:
        pdfFileObj = open(filename, 'rb')
        pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

        for pageNum in range(1, pdfReader.numPages):
            pageObj = pdfReader.getPage(pageNum)
            pdfWriter.addPage(pageObj)

    pdfOutput = open('Merged.pdf', 'wb')
    pdfWriter.write(pdfOutput)
    pdfOutput.close()

然后我收到以下错误......

:PdfReadWarning:Xref表未归零。将更正对象的ID号。 [pdf.py:1736]

我搜索了该错误,发现它表明创建PDF本身可能存在问题。

虽然我得到了我想要的merged.pdf文件,但我想知道这究竟意味着什么。如何避免得到它们。

1 个答案:

答案 0 :(得分:1)

此警告表示外部参照表的第一部分不以对象零开头。编写PDF时可能出错。如果strict = False,PyPDF2将尝试更正对象ID号。如果strict = True,则不会更正它们。默认值为True。试试PyPDF2.PdfFileReader(pdfFileObj,False)