我有两个文件名相同的PDF文件夹。我想迭代第一个文件夹,获取文件名的前3个字符,使其成为“当前”页面名称,然后使用该值从两个文件夹中获取2个相应的PDF,合并它们,并将它们写入第三个文件夹中。
下面的脚本按照第一次迭代的预期工作,但之后,后续合并的PDF包含所有以前的版本(在8次迭代中快速膨胀到72页)。
其中一些可能是由于代码不好,但我无法弄清楚它在哪里,或者如何清除可能导致每次迭代只写2页的输入/输出:
import os
from PyPDF2 import PdfFileMerger
merger = PdfFileMerger()
rootdir = 'D:/Python/Scatterplots/BoundaryEnrollmentPatternMap'
for subdir, dirs, files in os.walk(rootdir):
for currentPDF in files:
#print os.path.join(file[0:3])
pagename = os.path.join(currentPDF[0:3])
print "pagename is: " + pagename
print "File is: " + pagename + ".pdf"
input1temp = 'D:/Python/Scatterplots/BoundaryEnrollmentPatternMap/' + pagename + '.pdf'
input2temp = 'D:/Python/Scatterplots/TraditionalScatter/' + pagename + '.pdf'
input1 = open(input1temp, "rb")
input2 = open(input2temp, "rb")
merger.append(fileobj=input1, pages=(0,1))
merger.append(fileobj=input2, pages=(0,1))
outputfile = 'D:/Python/Scatterplots/CombinedMaps/Sch_' + pagename + '.pdf'
print merger.inputs
output = open(outputfile, "wb")
merger.write(output)
output.close()
#clear all inputs - necessary?
outputfile = []
output = []
merger.inputs = []
input1temp = []
input2temp = []
input1 = []
input2 = []
print "done"
我的代码/工作基于此示例:
https://github.com/mstamy2/PyPDF2/blob/master/Sample_Code/basic_merging.py
答案 0 :(得分:1)
我认为错误是merger
在循环之前被初始化并且它累积了所有文档。尝试将行merger = PdfFileMerger()
移动到循环体中。 merger.inputs = []
在这种情况下似乎没有帮助。
您的代码有一些注意事项:
input1 = []
未关闭文件。它将导致许多文件,由程序打开。您应该拨打input1.close()
。
[]表示一个空数组。如果变量不应包含任何有意义的值,最好使用None。
要删除变量(例如output
),请使用del output
。
毕竟,不需要清除所有变量。他们将被垃圾收集器释放。
使用os.path.join创建input1temp和input2temp。