Question

我正在尝试使用pdfbox从pdf中提取图像。我从CURL Windows Command获得了帮助。它适用于某些pdf，但对于其他/大部分没有。例如，我无法提取此post

中的数字

在做了一些研究之后，我发现PDResources.getImages已被弃用。所以，我正在使用PDResources.getXObjects（）。有了这个，我无法从PDF中提取任何图像，而是在控制台上收到此消息：

public void getimg ()throws Exception {

try {
        String sourceDir = "C:/Users/admin/Desktop/pdfbox/mypdfbox/pdfbox/inputs/Yavaa.pdf";
        String destinationDir = "C:/Users/admin/Desktop/pdfbox/mypdfbox/pdfbox/outputs/";
        File oldFile = new File(sourceDir);
        if (oldFile.exists()){
              PDDocument document = PDDocument.load(sourceDir);
               List<PDPage> list =   document.getDocumentCatalog().getAllPages();
               String fileName = oldFile.getName().replace(".pdf", "_cover");
               int totalImages = 1;
               for (PDPage page : list) {
                   PDResources pdResources = page.getResources();
                   Map pageImages = pdResources.getXObjects();
                    if (pageImages != null){
                      Iterator imageIter = pageImages.keySet().iterator();
                      while (imageIter.hasNext()){
                      String key = (String) imageIter.next();
                      Object obj = pageImages.get(key);

                      if(obj instanceof PDXObjectImage) {
               PDXObjectImage pdxObjectImage = (PDXObjectImage) obj;

                         pdxObjectImage.write2file(destinationDir + fileName+ "_" + totalImages);

                     totalImages++;
                      }
                      }
                    }
               }
        }  else {
                    System.err.println("File not exist");
                       }  
}
catch (Exception e){

    System.err.println(e.getMessage());
 }
 }

现在我陷入困境，无法找到解决方案。如果有人可以，请提供帮助。

//////更新评论///

我使用的是pdfbox-1.8.10

以下是代码：

Qt Creator

////部分解决方案/////

我已经解决了错误信息的问题。我也在帖子中更新了正确的代码。但问题仍然存在。我仍然无法从少数文件中提取图像。就像那个，我在这篇文章中提到过。在这方面的任何解决方案。

Answer 1

原始代码的第一个问题是XObjects可以是PDXObjectImage或PDXObjectForm，因此需要检查实例。第二个问题是代码不会递归地传递PDXObjectForm，表单也可以拥有资源。第三个问题（仅在1.8中）是你使用getResources（）而不是findResources（），getResources（）不检查更高级别。

1.8的代码可以在这里找到： https://svn.apache.org/viewvc/pdfbox/branches/1.8/pdfbox/src/main/java/org/apache/pdfbox/ExtractImages.java?view=markup

2.0的代码可以在这里找到： https://svn.apache.org/viewvc/pdfbox/trunk/tools/src/main/java/org/apache/pdfbox/tools/ExtractImages.java?view=markup&sortby=date

（即使这些并不总是完美的，see this answer）

第四个问题是你的文件根本没有任何XObject。所有“图形”都是矢量图，这些图像不能像嵌入图像一样“提取”。您所能做的就是convert the PDF pages to images，然后标记并剪切您需要的内容。

错误：org.apache.pdfbox.pdmodel.graphics.xobject.PDXObjectForm无法强制转换为org.apache.pdfbox.pdmodel.graphics.xobject.PDXObjectImage

1 个答案: