改善OCR预处理的步骤

时间:2019-02-12 14:11:08

标签: opencv ocr tesseract preprocessor

花半天时间尝试为Tesseract OCR找到最佳的图像预处理方法,除了阈值化之外没有发现任何好的结果。有人可以建议我应该尝试哪种步骤吗? OpenCV,ImageMagick,Gimp对我来说是很好的工具,图像可以具有不同的背景,但是字体和字体的颜色将始终相同。这是图像样本:

  1. Image 1
  2. Image 2
  3. Image 3

我现在正在使用阈值过滤器进行类似操作: enter image description here

以及来自OCR的文本:“ ELIMINATED LIFELINES220_ {¢-\” || “,Vv a。 —”

1 个答案:

答案 0 :(得分:0)

我找到了一篇很好的文章,描述了许多预处理步骤https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

但是最好的方法是使用“礼帽形态学运算”-使用邻域像素进行操纵。可以使用OpenCV
完成 tophat = cv2.morphologyEx(gray, cv2.MORPH_TOPHAT, rectKernel)

或者可以使用ImageMagick http://www.imagemagick.org/Usage/morphology/#top-hat

完成