改进tesseract OCR号码识别

时间:2014-06-26 19:46:55

标签: php ocr tesseract

我一直在玩tesseract和不同的psm选项,我试图使用这种模式:

enter image description here

当我处理这个时,我得到52658,它会切换5&8和#8并丢失小数位。无论如何,我可以得到一个更精确的阅读:

图像最初是透明的,我用PHP添加了白色背景,试图让它更好地识别,没有结果。

1 个答案:

答案 0 :(得分:4)

图像太小了。

我使用ImageMagick调整了它的大小,并且正确地开始OCR,Tesseract都是3.02和3.03:

$ tesseract 8UAYy.png ooo
Tesseract Open Source OCR Engine v3.03 with Leptonica
$ cat ooo.txt 
B2 655

$ convert 8UAYy.png -resize 300% ooo.png
$ tesseract ooo.png ooo
Tesseract Open Source OCR Engine v3.03 with Leptonica
$ cat ooo.txt 
82.685

$ tesseract302 ooo.png ooo
Tesseract Open Source OCR Engine v3.02.02 with Leptonica
$ cat ooo.txt 
82.685