Question

我正在使用tesseract v 3.02

我有以下图片 Tesseract Image

Download Image (right click -- save link as)

我想从中获取文字。我正在使用tesseract。

编写此命令时：

tesseract cropped.png tess -psm 7

我得到的结果是“suackea I 30 10193020 NL 3 e 1 64：23 23％34％120”。虽然结果还可以，但开始是不正确的。预期结果是：

“Strackea III€0.10 /€0.20 NL 6 6 1€4€23 23％34％120”

我尝试在tesseract之前使用imageMagick进行一些转换，以获得在白色背景上用黑色文字书写的图像：

convert cropped.png -fuzz 28000 -fill black -opaque white cropped.png
convert cropped.png -fuzz 25000 -fill white -opaque rgb(118,118,118) cropped.png

生成的图片为 enter image description here

Download Image (right click -- save link as)

tesseract cropped.png tess -psm 7

但结果是一样的。

您将使用什么转换或其他命令行工具来正确识别文本？）

文字所用的字体是微软无衬线

OCR的图像优化

0 个答案: