根据模板确定发票的投资回报率

时间:2019-05-31 16:37:22

标签: machine-learning ocr named-entity-recognition

发票和收据的结构相当多样化。为了定义投资回报率,我想通过在包含相关信息(例如增值税金额)的某些区域周围标记边框来标记一组现有发票。最好的方法是什么?

我的想法是用相应的边界框标记一组发票,以标识包含相关信息的有趣区域并使用tesseract识别这些区域中的文本。对于一张新发票,我将测试所有现有模式,如果一个模式完全匹配,我将开始根据各自的投资回报率提取信息。

这是做事的好方法还是提取信息的更好方法?我想使用tesseract进行提取,使用tensoflow进行神经网络训练,以针对新文档进行伪造。但是,我觉得这有点笨拙,但是我缺少更好的方法。当然,对于具有相应模式的文本提取,我将使用正则表达式,但这仅适用于非常有限的一组发票结构。

0 个答案:

没有答案