如何使用java识别pdf文件中的表格,图像和列表?

时间:2014-09-29 05:13:45

标签: java pdf pdfbox

我是java编程的新手....我需要提取每一个tables and images as per source,我尝试使用pdfbox提取文本,但我只获取文本和文本属性。如何使用java程序识别表,图像,列表等。

是否可以在pdf文件中识别......?

我使用模块是PDFbox,,如果有任何想法进一步处理......,

1 个答案:

答案 0 :(得分:0)

下面的代码可用于提取图像:

List pages = document.getDocumentCatalog().getAllPages();
                Iterator iter = pages.iterator();
                while( iter.hasNext() )
                {
                    PDPage page = (PDPage)iter.next();
                    PDResources resources = page.getResources();
                    Map images = resources.getImages();
                    if( images != null )
                    {
                        Iterator imageIter = images.keySet().iterator();
                        while( imageIter.hasNext() )
                        {
                            String key = (String)imageIter.next();
                            PDXObjectImage image = (PDXObjectImage)images.get( key );
                            String name = getUniqueFileName( key, image.getSuffix() );
                            System.out.println( "Writing image:" + name );
                            image.write2file( name );
                        }
                    }
                }

您可以针对类似问题提及here