Question

我已经使用InputStreams使用PDFBox成功实现了pdf合并解决方案。但是，当我尝试合并非常大的文档时，出现以下错误：

Caused by: java.io.IOException: Missing root object specification in trailer.
at org.apache.pdfbox.pdfparser.COSParser.parseTrailerValuesDynamically(COSParser.java:2832) ~[pdfbox-2.0.11.jar:2.0.11]
at org.apache.pdfbox.pdfparser.PDFParser.initialParse(PDFParser.java:173) ~[pdfbox-2.0.11.jar:2.0.11]
at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:220) ~[pdfbox-2.0.11.jar:2.0.11]
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:1144) ~[pdfbox-2.0.11.jar:2.0.11]
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:1060) ~[pdfbox-2.0.11.jar:2.0.11]
at org.apache.pdfbox.multipdf.PDFMergerUtility.legacyMergeDocuments(PDFMergerUtility.java:379) ~[pdfbox-2.0.11.jar:2.0.11]
at org.apache.pdfbox.multipdf.PDFMergerUtility.mergeDocuments(PDFMergerUtility.java:280) ~[pdfbox-2.0.11.jar:2.0.11]

（我认为）更重要的是在错误之前出现的这些语句：

FINE (pdfparser.COSParser) [] - Missing end of file marker '%%EOF'
FINE (pdfparser.COSParser) [] - Set missing offset 388 for object 2 0 R

在我看来，它在非常大的文件中找不到'%%EOF'标记。现在我知道它确实存在，因为我可以查看源文件（不幸的是我无法提供文件本身）。

进行一些在线搜索后，我发现setEOFLookupRange()类上有一个COSParser方法。我想知道查找范围是否太小，这就是为什么它找不到'%%EOF'标记的原因。问题是...我的代码中根本没有使用COSParser对象；我只使用PDFMergerUtility类。 PDFMergerUtility似乎在使用COSParser。

所以我的问题是

我对EOFLookupRange的假设正确吗？
如果是这样，如何设置代码中仅包含PDFMergerUtility对象而不包含COSParser对象的范围？

非常感谢您的光临！

已使用下面的代码更新

 private boolean getCoolDocuments(final String slateId, final String filePathAndName)
            throws IOException {

        boolean status = false;
        InputStream pdfStream = null;
        HttpURLConnection connection = null;
        final PDFMergerUtility merger = new PDFMergerUtility();
        final ByteArrayOutputStream mergedPdfOutputStream = new ByteArrayOutputStream();

        try {

            final List<SlateDocument> parsedSlateDocuments = this.getSpecificDocumentsFromSlate(slateId);

            if (!parsedSlateDocuments.isEmpty()) {

                // iterate through each document, adding each pdf stream to the merger utility
                int numberOfDocuments = 0;
                for (final SlateDocument slateDocument : parsedSlateDocuments) {

                    final String url = this.getBaseURL() + "/slate/" + slateId + "/documents/"
                            + slateDocument.getDocumentId();

                     /* code for RequestResponseUtil.initializeRequest(...) below */
                    connection = RequestResponseUtil.initializeRequest(url, "GET", this.getAuthenticationHeader(),
                            true, MediaType.APPLICATION_PDF_VALUE);

                    if (RequestResponseUtil.isSuccessful(connection.getResponseCode())) {
                        pdfStream = connection.getInputStream();

                    }
                    else {
                        /* do various things */
                    }

                    merger.addSource(pdfStream);
                    numberOfDocuments++;
                }

                merger.setDestinationStream(mergedPdfOutputStream);

                // merge the all the pdf streams together
               merger.mergeDocuments(MemoryUsageSetting.setupTempFileOnly());

               status = true;
            }
            else {
                LOG.severe("An error occurred while parsing the slated documents; no documents remain after parsing!");
            }
        }
        finally {
            RequestResponseUtil.close(pdfStream);

            this.disconnect(connection);
        }

        return status;
    }

   public static HttpURLConnection initializeRequest(final String url, final String method,
            final String httpAuthHeader, final boolean multiPartFormData, final String reponseType) {

    HttpURLConnection conn = null;

    try {
        conn = (HttpURLConnection) new URL(url).openConnection();
        conn.setRequestMethod(method);
        conn.setRequestProperty("X-Slater-Authentication", httpAuthHeader);
        conn.setRequestProperty("Accept", reponseType);
        if (multiPartFormData) {
            conn.setRequestProperty("Content-Type", "multipart/form-data; boundary=BOUNDARY");
            conn.setDoOutput(true);
        }
        else {
            conn.setRequestProperty("Content-Type", "application/xml");
        }
    }
    catch (final MalformedURLException e) {
        throw new CustomException(e);
    }
    catch (final IOException e) {
        throw new CustomException(e);
    }
    return conn;

}

Answer 1

我怀疑这是InputStream的问题。并不是我所想的那样，但是基本上我是在（非常错误的）假设下我可以做到这一点：

           pdfStream = connection.getInputStream();
                /* ... */
           merger.addSource(pdfStream);

当然，这是行不通的，因为可能会或可能不会读取整个InputStream。需要显式读取它，直到到达最后一个-1字节为止。我很确定在较小的文件上它可以正常工作，并且实际上可以在整个流中读取，但是在较大的文件上，它根本没有达到目的...因此找不到%%EOF标记

解决方案是使用中介ByteArrayOutputStream，然后通过InputStream将其转换回ByteArrayInputStream。

因此，如果您替换此行代码：

pdfStream = connection.getInputStream();

在此代码上方：

                final ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();

                int c;
                while ((c = connection.getInputStream().read()) != -1) {
                    byteArrayOutputStream.write(c);
                }

                pdfStream = new ByteArrayInputStream(byteArrayOutputStream.toByteArray());

您将得到一个可行的示例。

我可能最终会将其更改为使用Pipes or Circular Buffers instead的实现，但至少目前为止是可行的。

虽然这不一定是Java 101错误，但更像是Java 102错误，仍然很可耻。：/希望它将对其他人有所帮助。

感谢@Tilman Hausherr和@Master_ex提供的所有帮助！

Answer 2

我看了一下代码，发现EOFLookupRange中的默认COSParser是2048 bytes。

我认为您的假设是正确的。

看一下PDFParser，它扩展了COSParser，并且是PDFMergerUtility内部使用的解析器，我发现可以设置另一个EOFLookupRange by using a system property。系统属性名称为org.apache.pdfbox.pdfparser.nonSequentialPDFParser.eofLookupRange，并且应为有效整数。

Here是一个问题，演示了如何设置系统属性。

我还没有测试上述内容，但我希望它能起作用：）

_{^{PDFBox 代码的链接使用的是 2.0.11 版本。}}

使用PDFBox合并大型PDF文件时出错-文件标记'%% EOF'丢失结尾

已使用下面的代码更新

2 个答案: