处理大型TIFF文件和内存分配

时间:2017-06-26 15:19:30

标签: java memory tiff javax.imageio

我一直致力于开发一个可能非常大的TIFF文件的应用程序,并将其拆分为多个较小的文件。为了做到这一点,它需要遍历所有页面(BufferedImage对象)并执行一些操作以确定是否应该在此处启动新文件,或者此特定页面是已创建文件的一部分。

显然我无法将整个文件加载到内存中 - 这就是为什么我只使用ImageIO读取单页的原因。我用方法创建了一个util类:

public static BufferedImage getSinglePageFromTiffFile(File file, int pageIndex) throws IOException {
    ImageInputStream is = ImageIO.createImageInputStream(file);
    ImageReader reader;
    try {
        reader = ImageIO.getImageReaders(is).next();
        reader.setInput(is);
        return reader.read(pageIndex);
    } finally {
        if(is != null) is.close();
    }
}

public static int getNumPages(File file) throws IOException {
    ImageInputStream is = ImageIO.createImageInputStream(file);
    ImageReader reader;
    try {
        reader = ImageIO.getImageReaders(is).next();
        reader.setInput(is);
        return reader.getNumImages(true);
    } finally {
        if(is != null) is.close();
    }
}

要将页面写入文件,请使用ImageWriter类,如下所示:

int pagesQty = ImageUtils.getNumPages(documentToSplit);
    int currentPageIndex = 0;

    final ImageWriter writer = ImageIO.getImageWritersByFormatName(resultsExtension).next();
    final ImageWriteParam writeParams = writer.getDefaultWriteParam();
    writeParams.setCompressionMode(ImageWriteParam.MODE_COPY_FROM_METADATA);

    BufferedImage page = ImageUtils.getSinglePageFromTiffFile(file, currentPageIndex);

    while(currentPageIndex < pagesQty) {
        OutputStream outStream = null;
        ImageOutputStream imgOutStream = null;

        final File newDocFile = new File(pathName);

        try {
            outStream = new FileOutputStream(newDocFile);
            imgOutStream = ImageIO.createImageOutputStream(outStream);

            writer.setOutput(imgOutStream);
            writer.prepareWriteSequence(null);

            writer.writeToSequence(new IIOImage(page, null, null), writeParams);
            currentPageIndex++;

            while(currentPageIndex < pagesQty) {
                page = ImageUtils.getSinglePageFromTiffFile(documentToSplit, currentPageIndex);

                if(NEWPAGE) {
                    writer.endWriteSequence();
                    break;
                }

                writer.writeToSequence(new IIOImage(page, null, null), writeParams);
            }

        } finally {
            if(imgOutStream != null) imgOutStream.close();
            if(outStream != null) outStream.close();
        }
    }
}

我对此方法的保留适用于内存使用情况。处理文件时,最多可分配2GB内存。平均约为1 - 1.5GB。有没有办法在内存使用方面更有效地执行这些操作?

1 个答案:

答案 0 :(得分:2)

通过将TIFF页面读取为BufferedImages,您基本上可以解压缩存储的图像,这可能需要大量内存,具体取决于图像的大小:每个像素将占用3(RGB)或4(ARGB)字节,因此,10000 x 10000像素的图像将占用大约300或400 MB。

根据分配给Java进程的内存量,以及Garbage Collection启动的时间,您的进程实际上可能会累积大量已用内存。

由于主内存消耗可能来自解压缩的图像(button),减少使用的内存的最有效方法是不解压缩单个图像以提取它们。我不知道如何用普通Java做到这一点,但有第三方库可以做到这一点。其中一个是iCafe声称:

  

将多页TIFF图像拆分为单独的TIFF图像,而不对图像进行解压缩

我将此库用于其他图像格式(例如创建动画GIF),但还没有将它用于TIFF,但我认为这绝对值得一试。在它的Wiki-Page上,它提供了以下片段来拆分多页TIFF:

BufferedImage