如何使用pdfbox解析包含表格格式数据的pdf

时间:2013-01-15 07:21:58

标签: java parsing pdf web-applications itext

有人可以帮我解决如何使用itext或pdfbox提取表格数据,我有一个1000页的pdf,我的工作是解析pdf并将数据存储到数据库中。

2 个答案:

答案 0 :(得分:4)

PDF不包含任何表结构元素,除非包含用于定义表的其他XML。否则就没有结构。我写了一篇关于如何找到的blog article

像PdfBox这样的工具会努力猜测表格,但它可以被击中和错过

答案 1 :(得分:1)

您可以使用此代码以字符串格式提取数据:

PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);

然后你可以使用java正则表达式逐行解析并将值加载到java POJO bean中。