Question

我是java编程的新手....我需要提取每一个tables and images as per source，我尝试使用pdfbox提取文本，但我只获取文本和文本属性。如何使用java程序识别表，图像，列表等。

是否可以在pdf文件中识别......？

我使用模块是PDFbox,，如果有任何想法进一步处理......，

Answer 1

下面的代码可用于提取图像：

List pages = document.getDocumentCatalog().getAllPages();
                Iterator iter = pages.iterator();
                while( iter.hasNext() )
                {
                    PDPage page = (PDPage)iter.next();
                    PDResources resources = page.getResources();
                    Map images = resources.getImages();
                    if( images != null )
                    {
                        Iterator imageIter = images.keySet().iterator();
                        while( imageIter.hasNext() )
                        {
                            String key = (String)imageIter.next();
                            PDXObjectImage image = (PDXObjectImage)images.get( key );
                            String name = getUniqueFileName( key, image.getSuffix() );
                            System.out.println( "Writing image:" + name );
                            image.write2file( name );
                        }
                    }
                }

您可以针对类似问题提及here。

如何使用java识别pdf文件中的表格，图像和列表？

1 个答案: