image-processing - 最好的OCR方法，用于处理不同格式的文档以查找一种特定信息

时间：2019-06-19 05:55:55

标签： image-processing machine-learning ocr data-science google-cloud-vision

不幸的是，由于机密数据，我无法给出更具体的解释。

问题

因此，我得到了一些文档，这些文档通常包含相同的信息，但格式不同。在大多数情况下，我要查找的值靠近文档中的关键字。 OCR本身由Google Cloud Vision API处理，但是处理不同格式的最佳方法是什么？

...是要训练一个分类器，该分类器检测我正在处理的格式，然后选择我手动实现的找到目标值的适当方法。这既不方便也不可扩展。所以我正在寻找一些告诉我的算法目标值在哪里，看起来像什么等等。

解决此问题的最佳ML方法是什么？您的想法是什么？

作为数据类型的示例： 假设我有来自20个不同超市的收据，我正在寻找总成本，每个公司收据看起来都不同的问题。

答案 0 :(得分：1)

最近，我不得不使用tesseract处理类似的情况，但不包括OCR工具本身，我没有使用任何ML方法，因为就像您所说的那样，它无法扩展。

除非您拥有大量不同的布局，否则我认为分类器不会带来收益，然后您必须决定如何为每种布局提取数据...

这在很大程度上取决于您需要提取的数据类型，但是以您的示例为例，如果必须从所有不同的布局中提取总成本，则可以从每个收据中提取尽可能多的数字，并且根据一些因素对他们进行评分，例如：

然后，您可以使用在每张收据中得分最高的个人费用来计算最终总费用