我使用ESRI ArcMap 10中的数据驱动页面创建了一系列PDF文档(地图)。每个地图都有一个页面1和第2页,它们是从单独的* .mxd生成的。所以我有一个包含每个地图第1页的PDF文档列表和一个包含每个地图第2页的PDF文档列表。例如:Map1_001.pdf,map1_002.pdf,map1_003.pdf ... map2_001.pdf,map2_002.pdf,map2_003.pdf ...等等。
我想将这些地图(第1页和第2页)附加在一起,以便第1页和第2页在每个地图中一起放在一个PDF中。例如:mapboth_001.pdf,mapboth_002.pdf,mapboth_003.pdf ...(他们不必进入新的pdf文件(mapboth),可以将它们附加到map1)
对于每个map1_ * .pdf 遍历目录并附加map2_ * .pdf,其中文件名中的数字(*所在的位置)匹配
必须有一种方法可以使用python来完成它。也许结合了arcpy,os.walk或os.listdir,以及pyPdf和for循环?
对于os.walk(datadirectory)中的pdf:
??
有什么想法吗?谢谢你的帮助。
答案 0 :(得分:1)
PDF文件的结构与纯文本文件不同。简单地将两个PDF文件放在一起是行不通的,因为文件的结构和内容可能被覆盖或损坏。你当然可以创作自己的作品,但这需要相当长的时间,并且对PDF的内部结构有深入的了解。
那就是说,我建议你研究一下pyPDF。它支持您正在寻找的合并功能。
答案 1 :(得分:1)
这应该正确查找并整理所有要合并的文件;它仍然需要实际的.pdf合并代码。
编辑:我添加了基于the pyPdf example code的pdf编写代码。它没有经过测试,但应该(尽我所知)正常工作。
编辑2:意识到我有地图编号的十字路口;重新调整它以合并正确的地图集。
import collections
import glob
import re
# probably need to install this module -
# pip install pyPdf
from pyPdf import PdfFileWriter, PdfFileReader
def group_matched_files(filespec, reg, keyFn, dataFn):
res = collections.defaultdict(list)
reg = re.compile(reg)
for fname in glob.glob(filespec):
data = reg.match(fname)
if data is not None:
res[keyFn(data)].append(dataFn(data))
return res
def merge_pdfs(fnames, newname):
print("Merging {} to {}".format(",".join(fnames), newname))
# create new output pdf
newpdf = PdfFileWriter()
# for each file to merge
for fname in fnames:
with open(fname, "rb") as inf:
oldpdf = PdfFileReader(inf)
# for each page in the file
for pg in range(oldpdf.getNumPages()):
# copy it to the output file
newpdf.addPage(oldpdf.getPage(pg))
# write finished output
with open(newname, "wb") as outf:
newpdf.write(outf)
def main():
matches = group_matched_files(
"map*.pdf",
"map(\d+)_(\d+).pdf$",
lambda d: "{}".format(d.group(2)),
lambda d: "map{}_".format(d.group(1))
)
for map,pages in matches.iteritems():
merge_pdfs((page+map+'.pdf' for page in sorted(pages)), "merged{}.pdf".format(map))
if __name__=="__main__":
main()
答案 2 :(得分:0)
我没有任何测试pdf尝试和组合但我在文本文件上使用cat命令测试。 你可以尝试一下(我假设基于unix的系统):merge.py
import os, re
files = os.listdir("/home/user/directory_with_maps/")
files = [x for x in files if re.search("map1_", x)]
while len(files) > 0:
current = files[0]
search = re.search("_(\d+).pdf", current)
if search:
name = search.group(1)
cmd = "gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=FULLMAP_%s.pdf %s map2_%s.pdf" % (name, current, name)
os.system(cmd)
files.remove(current)
基本上它通过并抓取maps1列表,然后只是通过并假设正确的文件,只是通过数字。 (我可以看到使用计数器执行此操作并使用0填充以获得类似的效果)。
首先测试gs命令,我只是从http://hints.macworld.com/article.php?story=2003083122212228抓取它。
答案 3 :(得分:0)
有一些如何在googlecode的pdfrw项目页面上执行此操作的示例: