我是java编程的新手....我需要提取每一个tables and images as per source
,我尝试使用pdfbox提取文本,但我只获取文本和文本属性。如何使用java程序识别表,图像,列表等。
是否可以在pdf文件中识别......?
我使用模块是PDFbox,
,如果有任何想法进一步处理......,
答案 0 :(得分:0)
下面的代码可用于提取图像:
List pages = document.getDocumentCatalog().getAllPages();
Iterator iter = pages.iterator();
while( iter.hasNext() )
{
PDPage page = (PDPage)iter.next();
PDResources resources = page.getResources();
Map images = resources.getImages();
if( images != null )
{
Iterator imageIter = images.keySet().iterator();
while( imageIter.hasNext() )
{
String key = (String)imageIter.next();
PDXObjectImage image = (PDXObjectImage)images.get( key );
String name = getUniqueFileName( key, image.getSuffix() );
System.out.println( "Writing image:" + name );
image.write2file( name );
}
}
}
您可以针对类似问题提及here。