我不想用Java提取发票的发票号,发票日期,税额和价格。扫描发票并将其另存为PDF。有没有人知道相对简单的可能性呢?
答案 0 :(得分:1)
这是完全可能的。根据您愿意花多少精力以及您想要的环境,您至少可以做两件事:
使用iText7 Core从您的pdf文件中提取文本,然后使用正则表达式在该文本中查找内容
使用pfd2Data(iText7的附加组件)将发票(或其他pdf文档)与模板文档进行匹配。如果匹配成功,则pdf2Data将生成一个xml文件,其中包含pdf中的所有数据(您在模板中指定的数据)。从xml数据源中提取数据应该是微不足道的。
http://itextpdf.com/blog/pdf2data-extract-information-invoices-and-templates