Question

我创建PDF并将它们连接成一个PDF。

我生成的PDF比文件大小预期的要大得多。

我意识到我的输出PDF有大量重复的字体，这是文件大小意外的原因。

在这里，我的问题是：

我想创建只嵌入字体信息的PDF，所以让他们使用Windows系统字体。

当我将它们合并为单个PDF时，我插入了PDF所需的实际字体。

如果可能，请告诉我如何操作。

Answer 1

我已经创建了MergeAndAddFont示例来解释不同的选项。

我们将使用此代码段创建PDF：

public void createPdf(String filename, String text, boolean embedded, boolean subset) throws DocumentException, IOException {
    // step 1
    Document document = new Document();
    // step 2
    PdfWriter.getInstance(document, new FileOutputStream(filename));
    // step 3
    document.open();
    // step 4
    BaseFont bf = BaseFont.createFont(FONT, BaseFont.WINANSI, embedded);
    bf.setSubset(subset);
    Font font = new Font(bf, 12);
    document.add(new Paragraph(text, font));
    // step 5
    document.close();
}

我们使用此代码创建3个测试文件，1,2,3，我们将执行3次：A，B，C。

第一次，我们使用参数embedded = true和subset = true，从而生成文件testA1.pdf，文字为"abcdefgh"（3.71 KB），testA2.pdf，文字为"ijklmnopq"（3.49 KB），testA3.pdf为文字"rstuvwxyz"（3.55 KB）。字体是嵌入的，文件大小相对较低，因为我们只嵌入了字体的子集。

现在我们使用以下代码合并这些文件，使用smart参数指示我们是否要使用PdfCopy或PdfSmartCopy：

public void mergeFiles(String[] files, String result, boolean smart) throws IOException, DocumentException {
    Document document = new Document();
    PdfCopy copy;
    if (smart)
        copy = new PdfSmartCopy(document, new FileOutputStream(result));
    else
        copy = new PdfCopy(document, new FileOutputStream(result));
    document.open();
    PdfReader[] reader = new PdfReader[3];
    for (int i = 0; i < files.length; i++) {
        reader[i] = new PdfReader(files[i]);
        copy.addDocument(reader[i]);
    }
    document.close();
    for (int i = 0; i < reader.length; i++) {
        reader[i].close();
    }
}

当我们合并文档时，无论是PdfCopy还是PdfSmartCopy，相同字体的不同子集将被复制为生成的PDF testA_merged1.pdf / {{3中的单独对象（均为9.75 KB）。

这是您遇到的问题：PdfSmartCopy可以检测并重复使用相同的对象，但相同字体的不同子集不相同，并且iText无法将相同字体的不同子集合并为一种字体

第二次，我们使用参数embedded = true和subset = false，从而生成文件testA_merged2.pdf（21.38 KB），testB1.pdf（ 21.38 KB）和testB2.pdf（21.38 KB）。字体是完全嵌入的，单个文件的文件大小比以前大很多，因为嵌入了完整的字体。

如果我们使用PdfCopy合并文件，则字体将冗余地存在于合并文档中，从而导致文件膨胀testA3.pdf（63.16 KB）。这绝对不是你想要的！

但是，如果我们使用PdfSmartCopy，iText会检测到相同的字体流并重复使用它，从而产生testB_merged1.pdf（21.95 KB），这比PdfCopy小得多。它仍然比带有子集化字体的文档更大，但如果你连接大量文件，如果你嵌入完整的字体，结果会更好。

第三次，我们使用参数embedded = false和subset = false，从而产生文件testB_merged2.pdf（2.04 KB），testC1.pdf（ 2.04 KB）和testC2.pdf（2.04 KB）。字体未嵌入，从而产生了出色的文件大小，但如果您与之前的结果进行比较，您会发现字体看起来完全不同。

我们使用PdfSmartCopy合并文件，结果为testC3.pdf（2.6 KB）。同样，我们有一个很好的文件大小，但我们再次遇到字体无法正确显示的问题。

要解决此问题，我们需要嵌入字体：

private void embedFont(String merged, String fontfile, String result) throws IOException, DocumentException {
    // the font file
    RandomAccessFile raf = new RandomAccessFile(fontfile, "r");
    byte fontbytes[] = new byte[(int)raf.length()];
    raf.readFully(fontbytes);
    raf.close();
    // create a new stream for the font file
    PdfStream stream = new PdfStream(fontbytes);
    stream.flateCompress();
    stream.put(PdfName.LENGTH1, new PdfNumber(fontbytes.length));
    // create a reader object
    PdfReader reader = new PdfReader(merged);
    int n = reader.getXrefSize();
    PdfObject object;
    PdfDictionary font;
    PdfStamper stamper = new PdfStamper(reader, new FileOutputStream(result));
    PdfName fontname = new PdfName(BaseFont.createFont(fontfile, BaseFont.WINANSI, BaseFont.NOT_EMBEDDED).getPostscriptFontName());
    for (int i = 0; i < n; i++) {
        object = reader.getPdfObject(i);
        if (object == null || !object.isDictionary())
            continue;
        font = (PdfDictionary)object;
        if (PdfName.FONTDESCRIPTOR.equals(font.get(PdfName.TYPE))
            && fontname.equals(font.get(PdfName.FONTNAME))) {
            PdfIndirectObject objref = stamper.getWriter().addToBody(stream);
            font.put(PdfName.FONTFILE2, objref.getIndirectReference());
        }
    }
    stamper.close();
    reader.close();
}

现在，我们有文件testC_merged1.pdf（22.03 KB），这实际上是您问题的答案。如您所见，第二个选项优于第三个选项。

警告：此示例使用Gravitas One字体作为简单字体。只要您将字体用作复合字体（通过选择编码IDENTITY-H或IDENTITY-V告诉iText将其用作复合字体），就不能再使用选择是否嵌入字体，是否对字体进行子集化。根据ISO-32000-1的定义，iText将始终嵌入复合字体，并始终将它们分组。

这意味着当您需要特殊字体（中文，日文，韩文）时，您无法使用上述解决方案。在这种情况下，您不应该嵌入字体，而是使用所谓的CJK字体。他们的CJK字体将使用可由Adobe Reader下载的字体包。

如何在没有相同字体的多个副本的情况下将PDF合并到单个文件中？

1 个答案: