我正在尝试使用Tesseract 4.0从scanned image of a vehicle certificate中拉出一个特定的文本(带圆圈)。
在发送到Tesseract之前,我正在使用以下ImageMagick命令处理图像,该命令是我从其他各种在线帖子中得出的:
magick -density 600 certificate.pdf -colorspace gray -fill black -blur 5 \
-fuzz 10% +opaque "#FFFFFF" -depth 8 -strip -background white -alpha off \
-level 0 -trim temp.tiff
到目前为止,该命令使我最接近预期的输出(G79705338
),但是,仍然无法使Tesseract正确读取文本。我通常会收到类似679705338
,879705338
或67970533B
之类的东西。
看起来Tesseract正在读取装饰性边框的图案,如一堆字母和变音符号,这似乎干扰了它读取实际打印的文本,因为我尝试手动裁剪边框,而Tesseract能够读取文字几乎没有错误。
我可以通过任何方式以编程方式删除/忽略IM和Tesseract工具集之间的边界吗?我会很感激我能得到的所有帮助。我只是在工作时才完成这项任务的,而以前在图像处理或OCR方面没有经验,我当然不敢相信!