从PDF提取数据

时间:2018-10-16 19:00:45

标签: java pdf itext pdf-generation pdfbox

我有一个最终可以从html文件创建PDF文件的系统。它的工作原理与邮件合并非常相似。它从数据库中获取数据,将数据合并到html文档中的palceholders中,然后将html文件转换为pdf。

在对html文件进行单元测试时,我可以查看占位符中的值。例如,如果我有一个约翰·史密斯(John Smith),并且想验证名称为“约翰·史密斯”(John Smith),那么我只是在合并后查找div的值。

我需要对验证pdf中的数据执行类似的操作。使用pdfbox和itext,我可以从一个位置提取文本以及从文档中提取文本,但是找不到任何可以创建“标签/占位符/ ...”并从中提取信息的东西我做的HTML文件。

使用pdf文件可能吗?

1 个答案:

答案 0 :(得分:0)

使用pdf2Data(这是iText套件的一种解决方案)完全可以实现。

您可以在此处找到演示
http://pdf2data.online/

它基本上按照您的描述进行操作,为您提供了查看器和一些工具,您可以使用它们来定义感兴趣的区域(称为“占位符”)。

可以使用以下方法定义感兴趣的区域:

  • 坐标
  • 相对于其他感兴趣的领域
  • 相对于文本或正则表达式
  • 匹配特定的规律性发作
  • 匹配表

然后该工具将模板存储为XML文件,您可以使用Java或.NET代码从与模板匹配的PDF中提取信息。

为您提供了类似json的数据结构或XML文件。 这应该可以相对简单地测试给定的兴趣区域是否包含一段文本。