应用错误收集

如何避免Tesseract将小行识别为数字或字母？

时间：2014-11-28 21:06:37

标签： ocr tesseract

我正在使用Tesseract识别1bpp图像中的大而清晰的文本。它适用于我选择的字体和字体大小。但是，它也会将一些小线条和斑点识别为字母/数字。在附图中，Tesseract不仅识别“Ge”，“1”，“2”，“J。”和“Sp”，而且每行还有一个“1”，对应那些小的垂直线你可以看到那里。如何避免Tesseract这样做？

提前致谢。

Sample image

2 个答案:

答案 0 :(得分：1)

您应首先预处理图像。 OpenCV提供了一些形态学操作，如侵蚀或扩张，可以去除这些斑点和线条（http://docs.opencv.org/doc/tutorials/imgproc/erosion_dilatation/erosion_dilatation.html）。

答案 1 :(得分：1)

与其他答案一样，一些简单的侵蚀将有助于删除线条。但是，如果线条总是在真实角色所在的区域之外，您可以尝试一种简单的技巧，以避免在侵蚀时真实角色的退化。使用强烈侵蚀的图像查找真实字符的边界框，并使用此bbox剪切原始图像的有趣部分。