从扫描的发票中提取发票编号,发票日期等pdf(Java)

时间:2017-08-04 10:50:05

标签: java pdf ocr

我不想用Java提取发票的发票号,发票日期,税额和价格。扫描发票并将其另存为PDF。有没有人知道相对简单的可能性呢?

1 个答案:

答案 0 :(得分:1)

这是完全可能的。根据您愿意花多少精力以及您想要的环境,您至少可以做两件事:

  • 使用iText7 Core从您的pdf文件中提取文本,然后使用正则表达式在该文本中查找内容

  • 使用pfd2Data(iText7的附加组件)将发票(或其他pdf文档)与模板文档进行匹配。如果匹配成功,则pdf2Data将生成一个xml文件,其中包含pdf中的所有数据(您在模板中指定的数据)。从xml数据源中提取数据应该是微不足道的。

http://developers.itextpdf.com/content/best-itext-questions-stackoverview/content-parsing-extraction-and-redaction-text/itext7-how-read-text-specific-position

http://itextpdf.com/blog/pdf2data-extract-information-invoices-and-templates