为什么PDFBox PDFRenderer会变慢?

时间:2018-03-04 20:39:17

标签: java pdfbox pdfrenderer

我想使用PDFBox 2.x和PDFRenderer类将PDF转换为TIFF。

但与ghostscript相比,它的运行速度非常慢。

这是我的示例代码

public class SpeedTest
{
    static long startTime = System.currentTimeMillis ();

    public static void logTime (String msg)
    {
        long now = System.currentTimeMillis ();
        System.out.println (String.format ("%.3f: %s", (now - startTime) / 1000.0, msg));
        startTime = now;
    }

    public static void main (String[] args) throws Exception
    {
        //System.setProperty ("sun.java2d.cmm", "sun.java2d.cmm.kcms.KcmsServiceProvider");

        String pdfFileName = args[0];
        String tiffFileName = args[1];

        PDDocument document = PDDocument.load (new File (pdfFileName));
        logTime (pdfFileName + " loaded.");
        PDFRenderer pdfRenderer = new PDFRenderer (document);
        logTime ("intitalized renderer.");
        BufferedImage img = pdfRenderer.renderImageWithDPI (0, 600, ImageType.RGB);
        logTime ("page rendered as image.");
        ImageIO.write (img, "TIFF", new File (tiffFileName));
        logTime ("image saved as TIFF.");
    }
}

输出如下

0.521: sample.pdf loaded.
0.013: intitalized renderer.
2.910: page rendered as image.
2.005: image saved as TIFF.

正如您所看到的,对pdfRenderer.renderImageWithDPI的呼叫需要将近3秒(同样ImageIO.write - 呼叫也需要2秒)。

使用ghostscript完成相同操作后,完成任务将以0.4秒完成。

time gs -dQUIET -dBATCH -dNOPAUSE -sstdout=/dev/null -sDEVICE=tifflzw -r600 -dFirstPage=1 -dLastPage=1 -sOutputFile=sample.tif sample.pdf

real    0m0.389s
user    0m0.340s
sys     0m0.048s

我还试过

System.setProperty("sun.java2d.cmm", "sun.java2d.cmm.kcms.KcmsServiceProvider");

因为我正在运行Java 8(准确地说是1.8.0_161),但这没什么区别。

感谢每一个想法, 问候

托马斯

2 个答案:

答案 0 :(得分:0)

升级到JDK 1.8.0_191,该版本于 2018年10月或JDK 9.0.4发布。

从Pdfbox docs

  

PDFBox和Java 8

     

将PDFBox与Java 8一起使用时的重要注意事项    1.8.0_191之前的版本或9.0.4之前的Java 9

     

由于将Java颜色管理模块更改为   “ LittleCMS”,用户可能会遇到色彩缓慢的情况   操作。一个解决方案是禁用LittleCMS以便使用旧的   KCMS(柯达色彩管理系统)通过:

     

-Dsun.java2d.cmm=sun.java2d.cmm.kcms.KcmsServiceProvider开始   或致电

System.setProperty("sun.java2d.cmm", "sun.java2d.cmm.kcms.KcmsServiceProvider")

来源:

  

https://bugs.openjdk.java.net/browse/JDK-8041125

答案 1 :(得分:0)

根据我的实验,这种缓慢仅发生在文档的第一个渲染页面上。如果呈现多页文档的所有页面,则第一个页面之后的所有页面都将更快地呈现。渲染的绝对速度也很大程度上取决于所使用DPI的大小。

Render 6 document pages at 600 DPI
4.903s: page 0 rendered as image.
4.205s: page 1 rendered as image.
3.946s: page 2 rendered as image.
3.866s: page 3 rendered as image.
3.761s: page 4 rendered as image.
3.633s: page 5 rendered as image.

Render 6 document pages at 300 DPI
3.241s: page 0 rendered as image.
1.308s: page 1 rendered as image.
1.155s: page 2 rendered as image.
1.156s: page 3 rendered as image.
1.109s: page 4 rendered as image.
1.083s: page 5 rendered as image.

Render 6 document pages at 150 DPI
2.507s: page 0 rendered as image.
0.555s: page 1 rendered as image.
0.386s: page 2 rendered as image.
0.373s: page 3 rendered as image.
0.410s: page 4 rendered as image.
0.361s: page 5 rendered as image.

Render 6 document pages at 72 DPI
2.455s: page 0 rendered as image.
0.333s: page 1 rendered as image.
0.213s: page 2 rendered as image.
0.190s: page 3 rendered as image.
0.175s: page 4 rendered as image.
0.171s: page 5 rendered as image.

我认为这里的问题是AWT图形可以在软件中完成所有渲染,并且在像素填充率恒定的情况下,渲染时间与DPI值呈二次比例关系。第一张图片的速度很慢,可能是一些初始化开销。 (但是,目前这只是一个疯狂的猜测。)