将PDF与PyPDF2合并为基于文件迭代器的输入

时间:2015-12-08 17:00:13

标签: python pdf pdf-generation pypdf

我有两个文件名相同的PDF文件夹。我想迭代第一个文件夹,获取文件名的前3个字符,使其成为“当前”页面名称,然后使用该值从两个文件夹中获取2个相应的PDF,合并它们,并将它们写入第三个文件夹中。

下面的脚本按照第一次迭代的预期工作,但之后,后续合并的PDF包含所有以前的版本(在8次迭代中快速膨胀到72页)。

其中一些可能是由于代码不好,但我无法弄清楚它在哪里,或者如何清除可能导致每次迭代只写2页的输入/输出:

import os
from PyPDF2 import PdfFileMerger
merger = PdfFileMerger()

rootdir = 'D:/Python/Scatterplots/BoundaryEnrollmentPatternMap'

for subdir, dirs, files in os.walk(rootdir):
    for currentPDF in files:
        #print os.path.join(file[0:3])
        pagename = os.path.join(currentPDF[0:3])
        print "pagename is: " + pagename
        print "File is: " + pagename + ".pdf"
        input1temp = 'D:/Python/Scatterplots/BoundaryEnrollmentPatternMap/' + pagename + '.pdf'
        input2temp = 'D:/Python/Scatterplots/TraditionalScatter/' + pagename + '.pdf'
        input1 = open(input1temp, "rb")
        input2 = open(input2temp, "rb")
        merger.append(fileobj=input1, pages=(0,1))
        merger.append(fileobj=input2, pages=(0,1))
        outputfile = 'D:/Python/Scatterplots/CombinedMaps/Sch_' + pagename + '.pdf'

        print merger.inputs

        output = open(outputfile, "wb")
        merger.write(output)
        output.close()

        #clear all inputs - necessary?
        outputfile = []
        output = []
        merger.inputs = []
        input1temp = []
        input2temp = []
        input1 = []
        input2 = []

print "done"

我的代码/工作基于此示例:

https://github.com/mstamy2/PyPDF2/blob/master/Sample_Code/basic_merging.py

1 个答案:

答案 0 :(得分:1)

我认为错误是merger在循环之前被初始化并且它累积了所有文档。尝试将行merger = PdfFileMerger()移动到循环体中。 merger.inputs = []在这种情况下似乎没有帮助。

您的代码有一些注意事项:

  • input1 = []未关闭文件。它将导致许多文件,由程序打开。您应该拨打input1.close()

  • []表示一个空数组。如果变量不应包含任何有意义的值,最好使用None。

  • 要删除变量(例如output),请使用del output

  • 毕竟,不需要清除所有变量。他们将被垃圾收集器释放。

  • 使用os.path.join创建input1temp和input2temp。