OCR的图像优化

时间:2014-03-06 17:59:16

标签: image ocr tesseract

我正在使用tesseract v 3.02

我有以下图片Tesseract Image

Download Image (right click -- save link as)

我想从中获取文字。我正在使用tesseract。

编写此命令时:

tesseract cropped.png tess -psm 7

我得到的结果是“suackea I 30 10193020 NL 3 e 1 64:23 23%34%120”。虽然结果还可以,但开始是不正确的。预期结果是:

“Strackea III€0.10 /€0.20 NL 6 6 1€4€23 23%34%120”

我尝试在tesseract之前使用imageMagick进行一些转换,以获得在白色背景上用黑色文字书写的图像:

convert cropped.png -fuzz 28000 -fill black -opaque white cropped.png
convert cropped.png -fuzz 25000 -fill white -opaque rgb(118,118,118) cropped.png

生成的图片为enter image description here

Download Image (right click -- save link as)

tesseract cropped.png tess -psm 7

但结果是一样的。

您将使用什么转换或其他命令行工具来正确识别文本?)

文字所用的字体是微软无衬线

0 个答案:

没有答案