Apache PDFBox合并错误-java.io.IOException:预告片中缺少根对象规范

时间:2018-07-23 19:29:36

标签: java pdfbox

我正在尝试使用PDFBox中的InputStreams方法将PDFMergerUtility.mergeDocuments()的两个现有PDF文档合并在一起。这是我的代码;输入方法为pullDocumentsIntoSystem()

private boolean pullDocumentsIntoSystem(final String id, final String filePathAndName, final List<Letter> parsedLetters)
        throws IOException {

    final List<InputStream> pdfStreams = new ArrayList<InputStream>();
    final ByteArrayOutputStream mergedPdfOutputStream = new ByteArrayOutputStream();

            // make a call to retrieve each document
            for (final Letter letter : parsedLetters) {
                pdfStreams.add(this.getSpecificDocument(letter.getKey(), id));
            }

            // merge all the documents together
            this.mergePdfDocuments(pdfStreams, mergedPdfOutputStream);

            // write file to directory
            this.writeMergedPdfDocument(mergedPdfOutputStream, filePathAndName); //...more code below...

}

private InputStream getSpecificDocument(final String id, final String key) throws IOException {

    HttpURLConnection conn = null;
    InputStream pdfStream = null;

    try {
        final String url = this.getBaseURL() + "/letter/" + id + "/documents/" + key;

        conn = (HttpURLConnection) new URL(url).openConnection();
        conn.setRequestMethod("GET");
        conn.setRequestProperty("X-Letter-Authentication", this.getAuthenticationHeader());
        conn.setRequestProperty("Accept", "application/pdf");
        conn.setRequestProperty("Content-Type", "application/pdf");
        conn.setDoOutput(true);          

        pdfStream = connection.getInputStream();

    }
    finally {
        this.disconnect(connection);
    }

    return pdfStream;
}

    private void mergePdfDocuments(final List<InputStream> pdfStreams, final ByteArrayOutputStream mergedPdfOutputStream)
        throws IOException {

    final PDFMergerUtility merger = new PDFMergerUtility();

    merger.addSources(pdfStreams);

    merger.setDestinationStream(mergedPdfOutputStream);
    merger.mergeDocuments(MemoryUsageSetting.setupTempFileOnly());  // ERROR THROWN HERE
}

这是我在上面的注释行中收到的错误:

Caused by: java.io.IOException: Missing root object specification in trailer.   
at org.apache.pdfbox.pdfparser.COSParser.parseTrailerValuesDynamically(COSParser.java:2832) ~[pdfbox-2.0.11.jar:2.0.11]     
at org.apache.pdfbox.pdfparser.PDFParser.initialParse(PDFParser.java:173) ~[pdfbox-2.0.11.jar:2.0.11]   
at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:220) ~[pdfbox-2.0.11.jar:2.0.11]  
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:1144) ~[pdfbox-2.0.11.jar:2.0.11]  
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:1060) ~[pdfbox-2.0.11.jar:2.0.11]  
at org.apache.pdfbox.multipdf.PDFMergerUtility.legacyMergeDocuments(PDFMergerUtility.java:379) ~[pdfbox-2.0.11.jar:2.0.11]  
at org.apache.pdfbox.multipdf.PDFMergerUtility.mergeDocuments(PDFMergerUtility.java:280) ~[pdfbox-2.0.11.jar:2.0.11]

我正在使用PDFBox 2.0.11。

在重要的情况下,我的InputStream列表分别来自单独的HttpURLConnection.getInputStream()调用。我已经确认确实存在从HttpURLConnection中进行的调用返回的文档。

更新

根据以下@Tilman Hausherr的建议,我在不使用InputStream的情况下测试了相同的功能。如果我使用PDFMergerUtility.addSource(File source)方法而不是PDFMergerUtility.addSource(List<InputStream>),则合并成功。因此,似乎InputStream上的某些东西无法正常工作。

感谢您的帮助,并很高兴在需要时提供更多信息。

感谢您的时间!

2 个答案:

答案 0 :(得分:1)

最后,这确实是一个愚蠢的错误。我太早关闭HttpURLConnection。如果我在this.disconnect(connection)方法末尾删除了getSpecificDocument()调用,那么一切正常。

好吧,希望这会对别人有所帮助。

感谢潜在客户@ФаридАзаев和@Tilman Hausherr!

答案 1 :(得分:0)

输入流中可能存在问题,请尝试添加application / pdf MIME类型。