Question

提取图像上的PDFBox问题。嗨，我如何检查pdf页面是否是图像，并通过PDFBOX库提取，有一种获取图像的方法，但如果PDF页面是图像，它没有得到。有人可以帮助我解决这个问题。

提取图像上的Xpdf问题。我尝试通过另一个库xpdf提取图像，如果它是图像，它会在页面上进行奇怪的翻转。如果pdf包含一个小图像作为对象图像，它给我确定，如果页面被扫描，我们正在翻转。

我想从PDF中提取所有图像，如果扫描PAGE以将其作为图像，如果页面包含纯文本，图像也可以从此页面获取图像。

我的观点是从PDF中提取所有图像。不仅形成一个页面，但即使页面是一个图像，以提取它们作为图像但不跳过它们我是怎么做的，我认为PDFbox。

XPDF正在做一些事情，但是当他导出扫描页面时，页面上有一个问题FLIP（顶部，右侧）

如何解决这个问题谢谢。

    `PDDocument document = PDDocument.load(new File("/home/dru/IdeaProjects2/PDFExtractor/test/t1.pdf"));
    PDPageTree list = document.getPages();

    for (PDPage page : list) {
        PDResources pdResources = page.getResources();
        System.out.println(pdResources.getResourceCache());

        for (COSName c : pdResources.getXObjectNames()) {
            PDXObject o = pdResources.getXObject(c);

            if (o instanceof org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject) {
                File file = new File("/home/dru/IdeaProjects2/PDFExtractor/test/out/" + System.nanoTime() + ".png");
                ImageIO.write(((org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject)o).getImage(), "png", file);
            }
        }
    }`

Answer 1

正确提取图像

由于更新的PDF清楚地表明问题在于它在页面上没有任何图像，但它在其上绘制了包含图像的xobjects。因此，图像搜索必须递归到xobjects形式。

并非全部：更新的PDF中的所有页面共享相同的资源字典，它们只选择不同的形式xobjects来显示。因此，实际上必须解析相应的页面内容流以确定给定页面上存在哪个xobject（与哪些图像一起）。

实际上这是PDFBox工具ExtractImages所做的事情。不幸的是，它没有显示它发现有问题的图像的页面，参见ExtractImages.java test method testExtractPageImagesTool10948New。

但我们可以简单地借用该工具使用的技术：

PDDocument document = PDDocument.load(resource); int page = 1; for (final PDPage pdPage : document.getPages()) { final int currentPage = page; PDFGraphicsStreamEngine pdfGraphicsStreamEngine = new PDFGraphicsStreamEngine(pdPage) { int index = 0; @Override public void drawImage(PDImage pdImage) throws IOException { if (pdImage instanceof PDImageXObject) { PDImageXObject image = (PDImageXObject)pdImage; File file = new File(RESULT_FOLDER, String.format("10948-new-engine-%s-%s.%s", currentPage, index, image.getSuffix())); ImageIOUtil.writeImage(image.getImage(), image.getSuffix(), new FileOutputStream(file)); index++; } } @Override public void appendRectangle(Point2D p0, Point2D p1, Point2D p2, Point2D p3) throws IOException { } @Override public void clip(int windingRule) throws IOException { } @Override public void moveTo(float x, float y) throws IOException { } @Override public void lineTo(float x, float y) throws IOException { } @Override public void curveTo(float x1, float y1, float x2, float y2, float x3, float y3) throws IOException { } @Override public Point2D getCurrentPoint() throws IOException { return null; } @Override public void closePath() throws IOException { } @Override public void endPath() throws IOException { } @Override public void strokePath() throws IOException { } @Override public void fillPath(int windingRule) throws IOException { } @Override public void fillAndStrokePath(int windingRule) throws IOException { } @Override public void shadingFill(COSName shadingName) throws IOException { } }; pdfGraphicsStreamEngine.processPage(pdPage); page++; }

（ExtractImages.java测试方法testExtractPageImages10948New）

此代码输出文件名为“10948-new-engine-1-0.tiff”，“10948-new-engine-2-0.tiff”，“10948-new-engine-3-0.tiff”的图像“和”10948-new-engine-4-0.tiff“，即每页一个。

PS：请记住在您的类路径中包含com.github.jai-imageio:jai-imageio-core，这是TIFF输出所必需的。

翻转图像

OP的另一个问题是图像有时会翻转翻转，例如如果他现在是最新的样本文件“t1_edited.pdf”。原因是这些图像确实被颠倒存储为PDF中的图像资源。

当这些图像被绘制到页面上时，当时有效的当前变换矩阵会反映垂直绘制的图像，从而创建预期的外观。

通过略微增强上面代码中的drawImage实现，可以在导出图像的名称中包含此类翻转的指示符：

public void drawImage(PDImage pdImage) throws IOException { if (pdImage instanceof PDImageXObject) { Matrix ctm = getGraphicsState().getCurrentTransformationMatrix(); String flips = ""; if (ctm.getScaleX() < 0) flips += "h"; if (ctm.getScaleY() < 0) flips += "v"; if (flips.length() > 0) flips = "-" + flips; PDImageXObject image = (PDImageXObject)pdImage; File file = new File(RESULT_FOLDER, String.format("t1_edited-engine-%s-%s%s.%s", currentPage, index, flips, image.getSuffix())); ImageIOUtil.writeImage(image.getImage(), image.getSuffix(), new FileOutputStream(file)); index++; } }

现在相应地标记垂直或水平翻转的图像。

如何通过PDFBOX，XPDF检查PDF页面是否为图像（扫描）

1 个答案:

正确提取图像

翻转图像