如何将XMP元数据嵌入到多页PDF / A3文件中?

时间:2017-01-17 21:44:08

标签: java itext metadata xmp pdfa

我目前正在开发一个项目,这是一个TIFF到PDF格式的转换器。它需要一系列扫描的收集TIFF文件,并将它们转换为单页多页PDF / A3文件。我完成了项目的这一部分,并立即关注元数据处理问题。

我的老板要我将每个TIFF的元数据嵌入到PDF文件的每个相应页面中。我不知道该怎么做。根据我对PDF / A元数据结构的研究,似乎应该只有一个PDF格式的xmp文件,如果我想嵌入某些matadata页面,我必须给出一个指向我想要它的位置的指针是。在我的项目中,我想到的基本思想是,我应该从每个TIFF文件中提取元数据(我知道如何执行此步骤),将所有这些组合并转换为PDF文件。我试图使用iText,但似乎不支持这样做。

有谁知道怎么做?有这样的开放工具吗?我的主要语言是Java。

全部谢谢!!!

1 个答案:

答案 0 :(得分:0)

你的研究是正确的。

嗯,主要是因为将属于pdf文档的元数据作为一个整体和属于TIFF图像的元数据区分开来很重要。 第一个确实限于每个pdf的单个实例。 第二个是pdf元数据的独立,但可以作为文件附件添加,这是PDF / A-3标准允许的。 这两种类型都独立于任何页面,因此从这个意义上讲,您的Boss请求显示缺乏关于pdf作为格式的知识。

然而,您可以在每个指向其元数据的Tiff上添加链接注释,可选地存储在第二个pdf文件中,从而产生数据以某种方式存在于页面上的错觉。

现在,我必须恭敬地不同意您的说法,即iText不会为您提供处理此问题的工具。 Chapter 7 of the iText7 Jumpstart tutoria l处理PDF / A-X的创建,包括嵌入文件。 PDF / A-3是第三个例子。

对于链接注释,它们可能具有Pdf-spec(嵌入式Go-To动作)和iText的低级操作方法的一些知识。我现在还没有一个现成的例子,但我会看看我是否可以酿造一些东西,然后将其添加到这个答案中。

编辑: 嗯,这是令人失望的,Foxit和Adobe的读者都不支持嵌入式的行动。不过,如果您感兴趣,下面是我用于使用iText7创建PDF / A-3兼容文档的代码,将元数据添加为单独的Pdf。

public static String INTENT = "src/test/resources/StackOverflow/EmbeddedLinking/sRGB_CS_profile.icm";
public static String IMG = "src/test/resources/StackOverflow/EmbeddedLinking/itis.jpg";
public static String META = "target/output/StackOverflow/EmbeddedLinking/metadata.pdf";
public static String DEST = "target/output/StackOverFlow/EmbeddedLinking/embeddedMetaData.pdf";

public static void main(String[] args) throws IOException, java.io.IOException {
    File file = new File(DEST);
    file.getParentFile().mkdirs();
    new EmbeddedLinking().createPdf(META);
    new EmbeddedLinking().createPdfWithEmbeddedFile(DEST,META,IMG,INTENT);
}

public void createPdf(String dest) throws IOException, FileNotFoundException{
    PdfWriter writer = new PdfWriter(dest);
    PdfDocument pdfDoc = new PdfDocument(writer);
    Document doc = new Document(pdfDoc);
    //Put some data here
    doc.add(new Paragraph("This is the metadata"));
    doc.add(new Paragraph("The Cake is Lie"));
    doc.add(new Paragraph("42"));
    doc.add(new Paragraph("The Spice must flow"));
    doc.close();
}

public void createPdfWithEmbeddedFile(String dest, String embeddedPath, String imgPath, String intent) throws java.io.IOException {
    PdfWriter writer = new PdfWriter(dest);
    PdfOutputIntent outputIntent = new PdfOutputIntent("Custom", "","http://www.color.org", "sRGB IEC61966-2.1", new FileInputStream(intent));
    PdfADocument pdfADoc = new PdfADocument(writer, PdfAConformanceLevel.PDF_A_3A,outputIntent);

    //Setting some required parameters
    pdfADoc.setTagged();
    pdfADoc.getCatalog().setLang(new PdfString("en-US"));
    pdfADoc.getCatalog().setViewerPreferences(
            new PdfViewerPreferences().setDisplayDocTitle(true));
    PdfDocumentInfo info = pdfADoc.getDocumentInfo();
    info.setTitle("iText7 PDF/A-3 Embedded Go-To example");

    //Add attachment
    PdfDictionary parameters = new PdfDictionary();
    parameters.put(PdfName.ModDate, new PdfDate().getPdfObject());
    PdfFileSpec fileSpec = PdfFileSpec.createEmbeddedFileSpec(
            pdfADoc, Files.readAllBytes(Paths.get(embeddedPath)), "metadata.pdf",
            "metadata.pdf", new PdfName("application/pdf"), parameters,
            PdfName.Data, false);
    fileSpec.put(new PdfName("AFRelationship"), new PdfName("Data"));
    pdfADoc.addFileAttachment("metadata.pdf", fileSpec);
    PdfArray array = new PdfArray();
    array.add(fileSpec.getPdfObject().getIndirectReference());
    pdfADoc.getCatalog().put(new PdfName("AF"), array);

    //Add Image
    int imagePage = 1; //We know the image will end up on the first page since it's the only thing we add to the document
    Document doc = new Document(pdfADoc, PageSize.A4);
    Image img = new Image(ImageDataFactory.create(imgPath));
    doc.add(img);


    //Add link annotation to embedded file
    float pageHeight = PageSize.A4.getHeight();
    float imageWidth = img.getImageWidth();
    float imageHeight = img.getImageHeight();
    float x = doc.getLeftMargin();
    float y = pageHeight - doc.getTopMargin() - imageHeight;
    Rectangle linkAnnotationPosition = new Rectangle(x,y,imageWidth,imageHeight);

    PdfLinkAnnotation linkAnnotation = new PdfLinkAnnotation(linkAnnotationPosition);
    //Setup the Embedded GoTO action
    PdfExplicitDestination explicitDestination = PdfExplicitDestination.createFit(imagePage);//Destination in the target file
    PdfTargetDictionary targetDictionary = PdfTargetDictionary.createChildTarget("metadata.pdf"); //Target embedded file
    PdfAction action = PdfAction.createGoToE(fileSpec,explicitDestination,true,targetDictionary);
    linkAnnotation.setAction(action);
    //PDF/A requires the presence of the F -bit flag array in every dictionary. The print flag needs to be 1, and some other flags 0.
    //See the spec for details and options, but the bit pattern represented by the integer 4 suffices for conformance to PDF/A-3
    int fBitArray = 4;
    linkAnnotation.put(PdfName.F,new PdfNumber(fBitArray));
    //Add annotation to page
    pdfADoc.getPage(imagePage).addAnnotation(linkAnnotation);

    //Close document
    doc.close();
}