如何避免Tesseract将小行识别为数字或字母?

时间:2014-11-28 21:06:37

标签: ocr tesseract

我正在使用Tesseract识别1bpp图像中的大而清晰的文本。它适用于我选择的字体和字体大小。但是,它也会将一些小线条和斑点识别为字母/数字。在附图中,Tesseract不仅识别“Ge”,“1”,“2”,“J。”和“Sp”,而且每行还有一个“1”,对应那些小的垂直线你可以看到那里。如何避免Tesseract这样做?

提前致谢。

Sample image

2 个答案:

答案 0 :(得分:1)

您应首先预处理图像。 OpenCV提供了一些形态学操作,如侵蚀或扩张,可以去除这些斑点和线条(http://docs.opencv.org/doc/tutorials/imgproc/erosion_dilatation/erosion_dilatation.html)。

答案 1 :(得分:1)

与其他答案一样,一些简单的侵蚀将有助于删除线条。但是,如果线条总是在真实角色所在的区域之外,您可以尝试一种简单的技巧,以避免在侵蚀时真实角色的退化。 使用强烈侵蚀的图像查找真实字符的边界框,并使用此bbox剪切原始图像的有趣部分。