Tesseract OCR上的数字数字

时间:2015-05-27 09:54:26

标签: android opencv tesseract

SOLUTION:

我必须训练自己的数据才能使用OCR进行尝试。它似乎运作良好,但我不知道为什么arturaugusto的训练数据不适合我=(

https://github.com/adri1992/Tesseract_sevenSegmentsLetsGoDigital.git

通过我训练有素的数据,为了获得良好的OCR结果,我已经完成了这个阶段(我已经用OpenCV完成了):

  • 首先,将图像转换为Black& White
  • 其次,将图像应用于高斯模糊
  • 第三,将图像应用于阈值过滤器

这样,七段数字被识别。

问题:

我正试图通过Android上的Tesseract进行OCR,我正在使用此图片测试应用(通过Text detection on Seven Segment Display via Tesseract OCR):

OCR test image

我正在使用arturaugusto(https://github.com/arturaugusto/display_ocr)训练的数据,但是OCR的错误结果是:

884288

零被识别为八,我不知道为什么。

我通过OpenCV将图像应用于高斯模糊和阈值滤波器,处理的图像为:

OCR Image processed

是否有其他数据经过培训,或者您是否知道如何解决问题?

1 个答案:

答案 0 :(得分:0)

尝试使用erode来填补细分之间的空白。 我认为问题是tesseract无法处理好的分段字体。

使用OpenCV-python,我使用cv2.erode(display,kernel, iterations = erosion_iters)来解决这个问题。