如何从pdf文件中提取数据主要是数据表和这些东西有任何免费或开源工具可用于直接进行。我必须处理大量文件
答案 0 :(得分:0)
是的,您可以使用lucene 3.x库和pdfbox 0.7从某种程度上从pdf文件中提取文本
但是从pdf提取你不能得到转换一些图像和一些格式将转换成二进制和garabage代码
但你可以得到纯文本
File f = new File("filename");
FileInputStream fis=new FileInputStream(f);
PDFParser parser=new PDFParser(fis);
parser.parse();
PDDocument pd=parser.getPDDocument();
PDFTextStripper pst=new PDFTextStripper();
String pdftext=pst.getText(pd);
为此您需要下载两个jar文件 1)lucene-core-3.0.3 jar 2)pdfbox-0.7.3 jar
我会帮助你,不用担心
答案 1 :(得分:0)