如何在单词具有背景图像时改善tesseract的结果

时间:2017-08-22 01:49:06

标签: ocr tesseract

我正在尝试从图像中提取数字。我测试tesseract-OCR,但结果不够好。例如,

tesseract test.jpg stdout --psm 6

enter image description here

将输出:

4367 42424W0 104

我认为问题是由于单词后面有一些背景图像。有什么方法可以改善结果吗?

1 个答案:

答案 0 :(得分:2)

您可以使用convert的{​​{1}}命令将图像阈值设置为白背。您可以下载ImageMagick here,它支持多个平台。

输入,

ImageMagick

输出下面的图像。在几次尝试和调整之后获得阈值。

enter image description here

然后,使用基本的convert image.jpg -threshold 33% thresholded.jpg 命令,它会提供正确的输出。

enter image description here

如果图片仅包含0-9,您可以启用tesseract选项以提高识别准确度 - tesseract

希望得到这个帮助。