我正在使用tesseract v 3.02
我有以下图片
Download Image (right click -- save link as)
我想从中获取文字。我正在使用tesseract。
编写此命令时:
tesseract cropped.png tess -psm 7
我得到的结果是“suackea I 30 10193020 NL 3 e 1 64:23 23%34%120”。虽然结果还可以,但开始是不正确的。预期结果是:
“Strackea III€0.10 /€0.20 NL 6 6 1€4€23 23%34%120”
我尝试在tesseract之前使用imageMagick进行一些转换,以获得在白色背景上用黑色文字书写的图像:
convert cropped.png -fuzz 28000 -fill black -opaque white cropped.png
convert cropped.png -fuzz 25000 -fill white -opaque rgb(118,118,118) cropped.png
生成的图片为
Download Image (right click -- save link as)
tesseract cropped.png tess -psm 7
但结果是一样的。
您将使用什么转换或其他命令行工具来正确识别文本?)
文字所用的字体是微软无衬线