如何使用JAVA中的PDFBox从PDF创建图像

时间:2013-02-14 06:22:35

标签: java pdf pdfbox

我想从PDF的第一页创建图像。我正在使用PDFBox。在网上研究后,我发现了以下代码片段:

public class ExtractImages
 {
    public static void main(String[] args)
    {
        ExtractImages obj = new ExtractImages();
            try 
            {
                obj.read_pdf();
            }

            catch (IOException ex)
            {
                System.out.println("" + ex);
            }

    }

    void read_pdf() throws IOException 
    {
            PDDocument document = null; 
            try 
            {
                document = PDDocument.load("H:\\ct1_answer.pdf");
            }
            catch (IOException ex)
            {
                System.out.println("" + ex);
            }

            List<PDPage>pages =  document.getDocumentCatalog().getAllPages();
            Iterator iter =  pages.iterator(); 

            int i =1;
            String name = null;

            while (iter.hasNext()) 
            {
                PDPage page = (PDPage) iter.next();
                PDResources resources = page.getResources();
                Map pageImages = resources.getImages();
                if (pageImages != null) 
                { 
                    Iterator imageIter = pageImages.keySet().iterator();
                    while (imageIter.hasNext()) {
                        String key = (String) imageIter.next();
                        PDXObjectImage image = (PDXObjectImage) pageImages.get(key);
                        image.write2file("H:\\image" + i);
                        i ++;
                    }
                }
            }

        }

 } 

在上面的代码中没有错误。但是这段代码的输出都没有。我原以为上面的代码会生成一系列将保存在H盘中的图像。但是,从该代码生成的代码中没有图像。为什么?

2 个答案:

答案 0 :(得分:7)

不试图粗鲁,以下是您在主要工作循环中发布的代码:

PDPage page = (PDPage) iter.next();
PDResources resources = page.getResources();
Map pageImages = resources.getImages();

从PDF文件获取每个页面,从页面获取资源,并提取嵌入图像。然后它将这些写入磁盘。

如果您要成为一名称职的软件开发人员,您需要能够研究和阅读文档。使用Java,这意味着Javadocs。谷歌搜索PDPage(或明确转到apache网站)会显示Javadoc for PDPage

在该页面上,您会找到方法convertToImage()的两个版本,用于将PDPage转换为图片。问题解决了。

除了......

不幸的是,他们会根据您提出的其他问题返回java.awt.image.BufferedImage,因为Android平台不支持这是您正在处理的问题。

简而言之,你不能在Android上使用Apache的PDFBox来做你想做的事情。

在StackOverflow上搜索,您会发现同一个问题以不同的形式多次提出,这将引导您:https://stackoverflow.com/questions/4665957/pdf-parsing-library-for-android/4766335#4766335以及您感兴趣的以下答案:https://stackoverflow.com/a/4779852/302916

不幸的是,即使是上述答案所说的那个也会起作用......对用户不是很友好;我找不到“如何”或文档。它也被标记为“alpha”。这可能不适合虚假的事情,因为它需要阅读和理解他们的代码甚至开始使用它。

答案 1 :(得分:1)

我复制了你上面的代码并在eclipse中添加了以下的lib到我的构建路径。这是工作。

Apache PDFBox 1.7.1 libs

Commons Logging 1.1.1 libs