从pdf中提取数据

时间:2012-06-11 07:17:31

标签: pdf extract pdf-parsing

如何从pdf文件中提取数据主要是数据表和这些东西有任何免费或开源工具可用于直接进行。我必须处理大量文件

2 个答案:

答案 0 :(得分:0)

是的,您可以使用lucene 3.x库和pdfbox 0.7从某种程度上从pdf文件中提取文本

但是从pdf提取你不能得到转换一些图像和一些格式将转换成二进制和garabage代码

但你可以得到纯文本

File f = new File("filename");

FileInputStream fis=new FileInputStream(f);

PDFParser parser=new PDFParser(fis);

parser.parse();

PDDocument pd=parser.getPDDocument();

PDFTextStripper pst=new PDFTextStripper();

String pdftext=pst.getText(pd);

为此您需要下载两个jar文件 1)lucene-core-3.0.3 jar 2)pdfbox-0.7.3 jar

我会帮助你,不用担心

答案 1 :(得分:0)

对于基本文本提取,如果您有权访问命令行实用程序,请尝试pdftotextpdftohtml。您也可以使用strings命令。