我正在使用PDFBox从PDF文件中提取图像,并将其提供给另一个图像处理库(可以处理不同的图像格式)。我当前的代码是这样的:
PDImageXObject pdImage;
ByteArrayOutputStream baos = new ByteArrayOutputStream();
BufferedImage image = pdImage.getImage();
ImageIO.write(image, "png", baos);
byte[] imageBytes = baos.toByteArray();
这将获取存储在PDF文件中的所有内容,并使用Java图形将其转换为PNG。有没有更好的方法来避免转换并以嵌入的任何格式提取图像?我不想降低图像质量(我想通过使用PNG等无损格式来减轻图像质量)并招致转换开销。
答案 0 :(得分:0)
FlateeDecode过滤器和PNG文件格式使用DEFLATE算法。但是,经过FlateDecode压缩的数据流不是本身 PNG文件。
此外,您还需要考虑Image XObject(例如DeviceCMYK)的颜色空间表示与PNG实际支持的颜色。
通过对输出图像文件进行无损压缩,您将不会丢失任何信息。 (请确保您确实需要无损提取的图像,通常人们会认为有损压缩意味着他们的图像现在将发生很多变化,无法再识别。尽管在很多情况下,根据参数的不同,损失几乎无法用肉眼察觉,您可以大大节省了有损压缩的大小。)
如果性能较慢,则可能只是负责提取图像并保存图像的PDF软件的质量。