花半天时间尝试为Tesseract OCR找到最佳的图像预处理方法,除了阈值化之外没有发现任何好的结果。有人可以建议我应该尝试哪种步骤吗? OpenCV,ImageMagick,Gimp对我来说是很好的工具,图像可以具有不同的背景,但是字体和字体的颜色将始终相同。这是图像样本:
以及来自OCR的文本:“ ELIMINATED LIFELINES220_ {¢-\” || “,Vv a。 —”
答案 0 :(得分:0)
我找到了一篇很好的文章,描述了许多预处理步骤https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality
但是最好的方法是使用“礼帽形态学运算”-使用邻域像素进行操纵。可以使用OpenCV
完成
tophat = cv2.morphologyEx(gray, cv2.MORPH_TOPHAT, rectKernel)
或者可以使用ImageMagick http://www.imagemagick.org/Usage/morphology/#top-hat
完成