我正在尝试使用Microsoft的计算机视觉OCR API从图像上的表中获取信息。我遇到的麻烦是返回的数据通常包含各种qwerky区域,我试图将所有区域拼凑在一起,以获得完整的可读和可解析文本。
我想到的唯一方法是使用方向来旋转边界框坐标并检查哪条“线”在另一个给定边界框的高度的给定百分比内 - 可能是20%或者所以。
这实际上是我到目前为止所想到的唯一方式,我开始认为我已经过度复杂了;是否存在人们倾向于建立OCR区域以获得可读文本的标准方式?
答案 0 :(得分:0)
没有这样的标准方法。但是,根据需求,人们确实会选择REGEX。 Azure OCR以单词及其边界框的形式返回JSON响应。从那里开始,由您自己来解释结果。 ocr api不能帮助完成此任务。
首先,正则表达式是解析文本数据的好方法。或尝试使用此Reddit帖子中所述的机器学习方法:https://www.reddit.com/r/MachineLearning/comments/53ovp9/extracting_a_total_cost_from_ocr_paper_receipt/