Question

我正在尝试从图像中提取数字。我测试tesseract-OCR，但结果不够好。例如，

tesseract test.jpg stdout --psm 6

将输出：

4367 42424W0 104

我认为问题是由于单词后面有一些背景图像。有什么方法可以改善结果吗？

Answer 1

您可以使用convert的{{1}}命令将图像阈值设置为白背。您可以下载ImageMagick here，它支持多个平台。

输入，

ImageMagick

输出下面的图像。在几次尝试和调整之后获得阈值。

然后，使用基本的convert image.jpg -threshold 33% thresholded.jpg命令，它会提供正确的输出。

如果图片仅包含0-9，您可以启用tesseract选项以提高识别准确度 - tesseract。

希望得到这个帮助。