如何处理我的图像以帮助Tesseract?

时间:2019-02-17 05:51:48

标签: ocr tesseract

我有一些只包含数字和分号的图像。

示例:https://i.imgur.com/o4iz80V.png

您可以在此处查看更多信息:https://imgur.com/a/54dsl6h

对我来说,它们看起来很干净直接,但是Tesseract认为它们是空的“页面”(delete is; )。

我同时尝试了oem 1和oem 0以及字符列表:

  • Empty page!!

  • tesseract processed/35.0.png stdout -c tessedit_char_whitelist=0123456789: --oem 0

如何使Tesseract更好地识别角色?

1 个答案:

答案 0 :(得分:0)

Tesseract总体上仍然给我带来了非常糟糕的结果,但是使用简单的扩张算法使文本变粗体会有所帮助。

最后,由于字体实际上是方形的,所以我使用了一个技巧,即为每个数字定义一串线段,并根据哪些线段相交或不与数字相交,我可以确定99%准确度是哪个数字。