Microsoft计算机视觉OCR - 从区域拼凑线

时间:2018-05-30 16:28:00

标签: computer-vision ocr text-extraction

我正在尝试使用Microsoft的计算机视觉OCR API从图像上的表中获取信息。我遇到的麻烦是返回的数据通常包含各种qwerky区域,我试图将所有区域拼凑在一起,以获得完整的可读和可解析文本。

我想到的唯一方法是使用方向来旋转边界框坐标并检查哪条“线”在另一个给定边界框的高度的给定百分比内 - 可能是20%或者所以。

这实际上是我到目前为止所想到的唯一方式,我开始认为我已经过度复杂了;是否存在人们倾向于建立OCR区域以获得可读文本的标准方式?

1 个答案:

答案 0 :(得分:0)

没有这样的标准方法。但是,根据需求,人们确实会选择REGEX。 Azure OCR以单词及其边界框的形式返回JSON响应。从那里开始,由您自己来解释结果。 ocr api不能帮助完成此任务。

首先,正则表达式是解析文本数据的好方法。或尝试使用此Reddit帖子中所述的机器学习方法:https://www.reddit.com/r/MachineLearning/comments/53ovp9/extracting_a_total_cost_from_ocr_paper_receipt/