应用错误收集

时间：2018-05-30 16:28:00

标签： computer-vision ocr text-extraction

我正在尝试使用Microsoft的计算机视觉OCR API从图像上的表中获取信息。我遇到的麻烦是返回的数据通常包含各种qwerky区域，我试图将所有区域拼凑在一起，以获得完整的可读和可解析文本。

我想到的唯一方法是使用方向来旋转边界框坐标并检查哪条“线”在另一个给定边界框的高度的给定百分比内 - 可能是20％或者所以。

这实际上是我到目前为止所想到的唯一方式，我开始认为我已经过度复杂了;是否存在人们倾向于建立OCR区域以获得可读文本的标准方式？

答案 0 :(得分：0)

没有这样的标准方法。但是，根据需求，人们确实会选择REGEX。 Azure OCR以单词及其边界框的形式返回JSON响应。从那里开始，由您自己来解释结果。 ocr api不能帮助完成此任务。

首先，正则表达式是解析文本数据的好方法。或尝试使用此Reddit帖子中所述的机器学习方法：https://www.reddit.com/r/MachineLearning/comments/53ovp9/extracting_a_total_cost_from_ocr_paper_receipt/