使用Tesseract进行OCR之前先用ImageMagick去除装饰边框

时间:2019-05-29 17:34:58

标签: image-processing imagemagick ocr tesseract

我正在尝试使用Tesseract 4.0从scanned image of a vehicle certificate中拉出一个特定的文本(带圆圈)。

在发送到Tesseract之前,我正在使用以下ImageMagick命令处理图像,该命令是我从其他各种在线帖子中得出的:

magick -density 600 certificate.pdf -colorspace gray -fill black -blur 5 \
-fuzz 10% +opaque "#FFFFFF" -depth 8 -strip -background white -alpha off \
-level 0 -trim temp.tiff

到目前为止,该命令使我最接近预期的输出(G79705338),但是,仍然无法使Tesseract正确读取文本。我通常会收到类似67970533887970533867970533B之类的东西。

看起来Tesseract正在读取装饰性边框的图案,如一堆字母和变音符号,这似乎干扰了它读取实际打印的文本,因为我尝试手动裁剪边框,而Tesseract能够读取文字几乎没有错误。

我可以通过任何方式以编程方式删除/忽略IM和Tesseract工具集之间的边界吗?我会很感激我能得到的所有帮助。我只是在工作时才完成这项任务的,而以前在图像处理或OCR方面没有经验,我当然不敢相信!

0 个答案:

没有答案