Question

我正在尝试使用Tesseract 4.0从scanned image of a vehicle certificate中拉出一个特定的文本（带圆圈）。

在发送到Tesseract之前，我正在使用以下ImageMagick命令处理图像，该命令是我从其他各种在线帖子中得出的：

magick -density 600 certificate.pdf -colorspace gray -fill black -blur 5 \
-fuzz 10% +opaque "#FFFFFF" -depth 8 -strip -background white -alpha off \
-level 0 -trim temp.tiff

到目前为止，该命令使我最接近预期的输出（G79705338），但是，仍然无法使Tesseract正确读取文本。我通常会收到类似679705338，879705338或67970533B之类的东西。

看起来Tesseract正在读取装饰性边框的图案，如一堆字母和变音符号，这似乎干扰了它读取实际打印的文本，因为我尝试手动裁剪边框，而Tesseract能够读取文字几乎没有错误。

我可以通过任何方式以编程方式删除/忽略IM和Tesseract工具集之间的边界吗？我会很感激我能得到的所有帮助。我只是在工作时才完成这项任务的，而以前在图像处理或OCR方面没有经验，我当然不敢相信！

使用Tesseract进行OCR之前先用ImageMagick去除装饰边框

0 个答案: