我正在尝试从图像中提取数字。我测试tesseract-OCR,但结果不够好。例如,
tesseract test.jpg stdout --psm 6
将输出:
4367 42424W0 104
我认为问题是由于单词后面有一些背景图像。有什么方法可以改善结果吗?
答案 0 :(得分:2)
您可以使用convert
的{{1}}命令将图像阈值设置为白背。您可以下载ImageMagick
here,它支持多个平台。
输入,
ImageMagick
输出下面的图像。在几次尝试和调整之后获得阈值。
然后,使用基本的convert image.jpg -threshold 33% thresholded.jpg
命令,它会提供正确的输出。
如果图片仅包含0-9,您可以启用tesseract选项以提高识别准确度 - tesseract
。
希望得到这个帮助。