最好的OCR方法,用于处理不同格式的文档以查找一种特定信息

时间:2019-06-19 05:55:55

标签: image-processing machine-learning ocr data-science google-cloud-vision

不幸的是,由于机密数据,我无法给出更具体的解释。

问题

因此,我得到了一些文档,这些文档通常包含相同的信息,但格式不同。在大多数情况下,我要查找的值靠近文档中的关键字。 OCR本身由Google Cloud Vision API处理,但是处理不同格式的最佳方法是什么?

我的想法

...是要训练一个分类器,该分类器检测我正在处理的格式,然后选择我手动实现的找到目标值的适当方法。这既不方便也不可扩展。所以我正在寻找一些告诉我的算法目标值在哪里,看起来像什么等等。

解决此问题的最佳ML方法是什么?您的想法是什么?

作为数据类型的示例: 假设我有来自20个不同超市的收据,我正在寻找总成本,每个公司收据看起来都不同的问题。

1 个答案:

答案 0 :(得分:1)

最近,我不得不使用tesseract处理类似的情况,但不包括OCR工具本身,我没有使用任何ML方法,因为就像您所说的那样,它无法扩展。

除非您拥有大量不同的布局,否则我认为分类器不会带来收益,然后您必须决定如何为每种布局提取数据...

这在很大程度上取决于您需要提取的数据类型,但是以您的示例为例,如果必须从所有不同的布局中提取总成本,则可以从每个收据中提取尽可能多的数字,并且根据一些因素对他们进行评分,例如:

  1. 如果是费用($或其他货币符号)
  2. 与一些常见关键字(例如“总计,最终,总和等”)之间的距离
  3. 如果该收据的最高价值
  4. 您可能会想到的其他因素,这完全取决于您需要提取的数据

然后,您可以使用在每张收据中得分最高的个人费用来计算最终总费用