PDFClown图像提取图像已翻转

时间:2015-05-29 14:24:12

标签: pdf pdfclown

我正在使用PDFClown,我正在尝试从pdf文件中提取图像。我使用的源代码提供的示例代码可以在http://pdfclown.org找到。

ImageExtractionSample.java。

问题是图像是负片并且水平翻转。有谁知道如何解决这个问题?

1 个答案:

答案 0 :(得分:1)

检查其他PDF文件以查看其他PDF文件是否也提供旋转或翻转的图像。 ImageExtractionSample.java不检查图像对象的旋转或矩阵定义转换,而只是将内容按原样写入文件(因此它适用于JPG图像,但不适用于CCIT编码图像)。

因此,从PDF中提取图像时需要考虑以下事项:

  • 图像可以使用附加的变换矩阵(CTM)旋转;
  • 图像可以旋转/转换为转换形式的一部分;
  • 图片可以在页面上放置而不进行转换,但页面本身会旋转;
  • 图像可以在其上方包含重叠的蒙版(并且可以旋转和变换蒙版);
  • JPG图像几乎存储,但PDF支持其他格式,如CCIT压缩,LZW压缩图像等;

但一般的建议是,当您使用PDFClown从PDF中提取JPG图像时,您应该只需翻转和旋转提取的图像,如suggested on the SourceForge project discussion page

如果您可以指向特定的PDF样本文件,那么建议解决方案会更容易。

如果您使用的是Windows,则可以使用此免费PDF Multitool实用程序,使用"提取原始图像(无需转换)"来比较PDF中未转换和转换的图像。图像提取对话框中的选项。

免责声明:我为ByteScout工作,PDF Multitool实用程序免费用于商业和非商业目的。