Question

我正在将PDF文件与PyPDF2合并，但是，当其中一个文件包含一个装有数据的PDF模块（典型的应用程序填充的PDF）时，在合并的文件中该模块为空，则不会显示任何数据。

以下是我用来合并PDF的两种方法：

def merge_pdf_files(pdf_files, i):
    pdf_merger = PdfFileMerger(strict=False)
    for pdf in pdf_files:
        pdf_merger.append(pdf)
    output_filename = '{out_root}{prog}.{cf}.pdf'.format(out_root=out_root_path, prog=i+1, cf=cf)
    pdf_merger.write(output_filename)

def merge_pdf_files2(pdf_files, i):
    output = PdfFileWriter()
    for pdf in pdf_files:
        input = PdfFileReader(pdf)
        for page in input.pages:
            output.addPage(page)
    output_filename = '{out_root}{prog}.{cf}.pdf'.format(out_root=out_root_path, prog=i+1, cf=cf)
    with open(output_filename,'wb') as output_stream:
        output.write(output_stream)

我希望最终的合并PDF显示所有在PDF模块中填充的数据。或者，有人可以将我指向另一个没有出现此（外观）错误的python库。谢谢

更新我也尝试了PyMuPDF，结果相同。

def merge_pdf_files4(pdf_files, i):
    output = fitz.open()
    for pdf in pdf_files:
        input = fitz.open(pdf)
        output.insertPDF(input)
    output_filename = '{out_root}{prog}.{cf}.pdf'.format(out_root=out_root_path, prog=i+1, cf=cf)
    output.save(output_filename)

也尝试过PyPDF4。与PyPDF2相同的结果

还尝试使用通过命令行从脚本启动的外部工具：

subprocess.call(cmd, shell=True)

我一开始尝试pdftk，但也失败了。唯一可行的是PDFill，商业版，花了19美元在任务上……:( 太糟糕了，我找不到一个独立于平台的开源解决方案。

Answer 1

最后，我自己解决了这个问题，在这里与大家分享，希望对其他人有用。

这是一项艰巨的任务。

最后，我坚持使用 pdfrw 库（https://pypi.org/project/pdfrw/和https://github.com/pmaupin/pdfrw），该库提供了良好的PDF-DOM表示形式，非常接近公开发布的PDF-Structure记录在Adobe的官方参考（https://www.adobe.com/devnet/pdf/pdf_reference.html）中。

使用该库，PyCharm的对象检查器和Adobe文档，我可以对输出文件的结构进行试验，发现简单的1行合并：

    from pdfrw import PdfReader, PdfWriter

    output = PdfWriter()
    input = PdfReader(pdf_filename)
    output.addpages(input.pages)

不会将 AcroForm 节点添加到输出 PDF文件中，因此会丢失所有表单字段。

因此，我不得不编写自己的代码以尽可能地合并各种输入文件的 AcroForm 节点。

我强调“我能做的最好的广告” 句子，因为我最终得到的合并功能远非完美，但至少它对我有用并且可以如果需要，可以帮助其他人从这一点上建立起来。

要做的一件事是重命名表单字段以避免冲突，因此我将其重命名为 {file_num} _ {field_num} _ {original_name} 。

然后，我不完全知道如何合并 CO，DA，DR和NeedAppearances 节点，我只是添加了包含它们的第一个源文件中的节点。如果后续文件中存在相同的节点，则将其跳过。

除了字体，我将其跳过，将 DR 节点的字体子节点的内容合并。

最后，我的第一次尝试是对输出的 trailer 属性进行上述所有操作。然后我发现，每次我从新的输入文件添加页面时， pdfrw 似乎都会删除预告片中已经存在的所有 AcroForm 。我不知道原因，但是在写出最终的pdf之前，我必须构建一个 ouptut_acroform 变量并将其分配给输出文件。

最后，这是我的代码。如果不是pythonic，请原谅我，我只是希望它能阐明以上几点。

from pdfrw import PdfReader, PdfWriter, PdfName def merge_pdf_files_pdfrw(pdf_files, output_filename): output = PdfWriter() num = 0 output_acroform = None for pdf in pdf_files: input = PdfReader(pdf,verbose=False) output.addpages(input.pages) if PdfName('AcroForm') in input[PdfName('Root')].keys(): # Not all PDFs have an AcroForm node source_acroform = input[PdfName('Root')][PdfName('AcroForm')] if PdfName('Fields') in source_acroform: output_formfields = source_acroform[PdfName('Fields')] else: output_formfields = [] num2 = 0 for form_field in output_formfields: key = PdfName('T') old_name = form_field[key].replace('(','').replace(')','') # Field names are in the "(name)" format form_field[key] = 'FILE_{n}_FIELD_{m}_{on}'.format(n=num, m=num2, on=old_name) num2 += 1 if output_acroform == None: # copy the first AcroForm node output_acroform = source_acroform else: for key in source_acroform.keys(): # Add new AcroForms keys if output_acroform already existing if key not in output_acroform: output_acroform[key] = source_acroform[key] # Add missing font entries in /DR node of source file if (PdfName('DR') in source_acroform.keys()) and (PdfName('Font') in source_acroform[PdfName('DR')].keys()): if PdfName('Font') not in output_acroform[PdfName('DR')].keys(): # if output_acroform is missing entirely the /Font node under an existing /DR, simply add it output_acroform[PdfName('DR')][PdfName('Font')] = source_acroform[PdfName('DR')][PdfName('Font')] else: # else add new fonts only for font_key in source_acroform[PdfName('DR')][PdfName('Font')].keys(): if font_key not in output_acroform[PdfName('DR')][PdfName('Font')]: output_acroform[PdfName('DR')][PdfName('Font')][font_key] = source_acroform[PdfName('DR')][PdfName('Font')][font_key] if PdfName('Fields') not in output_acroform: output_acroform[PdfName('Fields')] = output_formfields else: # Add new fields output_acroform[PdfName('Fields')] += output_formfields num +=1 output.trailer[PdfName('Root')][PdfName('AcroForm')] = output_acroform output.write(output_filename)

希望这会有所帮助。

PyPDF2 PdfFileMerger合并文件中的PDF模块丢失

1 个答案: