如何根据图像质量确定使用哪种OCR方法

时间:2019-12-22 16:02:50

标签: python image-processing ocr

我问一个问题,因为我为期两周的研究开始让我感到非常困惑。

我有一堆图像,我想从这些图像中获取运行时中的数字(Reinforcment Learning中的奖励功能需要它)。事实是,它们对我来说很清楚(我知道对于OCR系统这是完全不同的事情,但这就是为什么我要提供其他图像来显示我在说什么)

enter image description here enter image description here enter image description here

我认为这是因为它们很明确。因此,我尝试使用PyTesseract,但在无法解决问题时,我试图研究哪些其他方法可能对我有用。

...这就是我的搜索到此结束的原因,因为试图找出最适合我的问题的方法的两个星期才引发了更多问题。

目前,我认为最好的解决办法是从MNIST / SVNH数据集中创建数字识别模型,但这是否有点过大?我的意思是,图像是标准化的,它们是灰度的,它们很小,数字字体保持不变,所以我认为有一种更简便的方法来修改这些图像/使用不同的OCR方法。

这就是为什么我要问两个问题:

  1. 对于我的情况,哪种方法应该是最有用的(如果不是模型的话) 训练有MNIST / SVNH数据集?
  2. 是否有任何类型的文档/书籍/资源可以简化基础架构的实际选择?我的意思是说 将来我会再次计划使用哪种OCR系统。 我应该在什么基础上做出选择?纯粹是尝试和错误 东西吗?

1 个答案:

答案 0 :(得分:1)

如果您要识别的是那7个段位数字,那就不用理会任何OCR软件包了。

使用窗口的轮廓查找数字的大小和位置。然后计算面向这些分段的七个预定义区域中的黑色像素。

enter image description here