应用错误收集

我们有几种表格，没有特定的格式，但是几乎所有表格都包含一些相同的字段。表格是手工填写的。

我们要从某些特定字段中提取数据。字段的位置不是恒定的。甚至表单的布局也不是恒定的。但是，手写的相关数据通常在打印的字段标题的右侧。

可能对整个页面进行OCR，然后尝试获取相关字段是一种选择，但是为了提高效率，我们想确定感兴趣的区域和OCR仅是相关部分，特别是因为手写OCR的成本非常高。

我了解OpenCV可以识别图像中的文本区域甚至轮廓。只要有机会，我都可以使用打印的字段名称来识别我感兴趣的领域，而无需运行完整的OCR。

为更清晰起见而进行了编辑。所附发票将是一个很好的例子。对于此类图像，我们如何仅在不执行完整OCR的情况下读取GST编号（带圆圈）。