使用Python将两个PDF列表一对一地组合在一起

时间:2012-06-05 23:15:03

标签: python pdf append pypdf

我使用ESRI ArcMap 10中的数据驱动页面创建了一系列PDF文档(地图)。每个地图都有一个页面1和第2页,它们是从单独的* .mxd生成的。所以我有一个包含每个地图第1页的PDF文档列表和一个包含每个地图第2页的PDF文档列表。例如:Map1_001.pdf,map1_002.pdf,map1_003.pdf ... map2_001.pdf,map2_002.pdf,map2_003.pdf ...等等。

我想将这些地图(第1页和第2页)附加在一起,以便第1页和第2页在每个地图中一起放在一个PDF中。例如:mapboth_001.pdf,mapboth_002.pdf,mapboth_003.pdf ...(他们不必进入新的pdf文件(mapboth),可以将它们附加到map1)

对于每个map1_ * .pdf 遍历目录并附加map2_ * .pdf,其中文件名中的数字(*所在的位置)匹配

必须有一种方法可以使用python来完成它。也许结合了arcpy,os.walk或os.listdir,以及pyPdf和for循环?

对于os.walk(datadirectory)中的pdf:

      ??

有什么想法吗?谢谢你的帮助。

4 个答案:

答案 0 :(得分:1)

PDF文件的结构与纯文本文件不同。简单地将两个PDF文件放在一起是行不通的,因为文件的结构和内容可能被覆盖或损坏。你当然可以创作自己的作品,但这需要相当长的时间,并且对PDF的内部结构有深入的了解。

那就是说,我建议你研究一下pyPDF。它支持您正在寻找的合并功能。

答案 1 :(得分:1)

这应该正确查找并整理所有要合并的文件;它仍然需要实际的.pdf合并代码。

编辑:我添加了基于the pyPdf example code的pdf编写代码。它没有经过测试,但应该(尽我所知)正常工作。

编辑2:意识到我有地图编号的十字路口;重新调整它以合并正确的地图集。

import collections
import glob
import re

# probably need to install this module -
#   pip install pyPdf
from pyPdf import PdfFileWriter, PdfFileReader

def group_matched_files(filespec, reg, keyFn, dataFn):
    res = collections.defaultdict(list)
    reg = re.compile(reg)
    for fname in glob.glob(filespec):
        data = reg.match(fname)
        if data is not None:
            res[keyFn(data)].append(dataFn(data))
    return res

def merge_pdfs(fnames, newname):
    print("Merging {} to {}".format(",".join(fnames), newname))

    # create new output pdf
    newpdf = PdfFileWriter()

    # for each file to merge
    for fname in fnames:
        with open(fname, "rb") as inf:
            oldpdf = PdfFileReader(inf)
            # for each page in the file
            for pg in range(oldpdf.getNumPages()):
                # copy it to the output file
                newpdf.addPage(oldpdf.getPage(pg))

    # write finished output
    with open(newname, "wb") as outf:
        newpdf.write(outf)

def main():
    matches = group_matched_files(
        "map*.pdf",
        "map(\d+)_(\d+).pdf$",
        lambda d: "{}".format(d.group(2)),
        lambda d: "map{}_".format(d.group(1))
    )
    for map,pages in matches.iteritems():
        merge_pdfs((page+map+'.pdf' for page in sorted(pages)), "merged{}.pdf".format(map))

if __name__=="__main__":
    main()

答案 2 :(得分:0)

我没有任何测试pdf尝试和组合但我在文本文件上使用cat命令测试。 你可以尝试一下(我假设基于unix的系统):merge.py

import os, re
files = os.listdir("/home/user/directory_with_maps/")
files = [x for x in files if re.search("map1_", x)]
while len(files) > 0:
    current = files[0]
    search = re.search("_(\d+).pdf", current)
    if search:
        name = search.group(1)
        cmd = "gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=FULLMAP_%s.pdf %s map2_%s.pdf" % (name, current, name)
        os.system(cmd)
    files.remove(current)

基本上它通过并抓取maps1列表,然后只是通过并假设正确的文件,只是通过数字。 (我可以看到使用计数器执行此操作并使用0填充以获得类似的效果)。

首先测试gs命令,我只是从http://hints.macworld.com/article.php?story=2003083122212228抓取它。

答案 3 :(得分:0)

有一些如何在googlecode的pdfrw项目页面上执行此操作的示例:

http://code.google.com/p/pdfrw/wiki/ExampleTools