应用错误收集

时间：2019-02-12 14:11:08

标签： opencv ocr tesseract preprocessor

花半天时间尝试为Tesseract OCR找到最佳的图像预处理方法，除了阈值化之外没有发现任何好的结果。有人可以建议我应该尝试哪种步骤吗？ OpenCV，ImageMagick，Gimp对我来说是很好的工具，图像可以具有不同的背景，但是字体和字体的颜色将始终相同。这是图像样本：

我现在正在使用阈值过滤器进行类似操作：

以及来自OCR的文本：“ ELIMINATED LIFELINES220_ {¢-\” || “，Vv a。 —”

答案 0 :(得分：0)

我找到了一篇很好的文章，描述了许多预处理步骤https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

但是最好的方法是使用“礼帽形态学运算”-使用邻域像素进行操纵。可以使用OpenCV
完成 tophat = cv2.morphologyEx(gray, cv2.MORPH_TOPHAT, rectKernel)

完成