在没有OCR整个图像的情况下从文档中识别特定文本

时间:2019-06-16 17:18:43

标签: python opencv opencv-contour

我们有几种表格,没有特定的格式,但是几乎所有表格都包含一些相同的字段。表格是手工填写的。

我们要从某些特定字段中提取数据。字段的位置不是恒定的。甚至表单的布局也不是恒定的。但是,手写的相关数据通常在打印的字段标题的右侧。

可能对整个页面进行OCR,然后尝试获取相关字段是一种选择,但是为了提高效率,我们想确定感兴趣的区域和OCR仅是相关部分,特别是因为手写OCR的成本非常高。

我了解OpenCV可以识别图像中的文本区域甚至轮廓。只要有机会,我都可以使用打印的字段名称来识别我感兴趣的领域,而无需运行完整的OCR。

为更清晰起见而进行了编辑。 所附发票将是一个很好的例子。对于此类图像,我们如何仅在不执行完整OCR的情况下读取GST编号(带圆圈)。 Sample Bill Image

0 个答案:

没有答案