我有一些只包含数字和分号的图像。
示例:
您可以在此处查看更多信息:https://imgur.com/a/54dsl6h
对我来说,它们看起来很干净直接,但是Tesseract认为它们是空的“页面”(delete is;
)。
我同时尝试了oem 1和oem 0以及字符列表:
Empty page!!
tesseract processed/35.0.png stdout -c tessedit_char_whitelist=0123456789: --oem 0
如何使Tesseract更好地识别角色?
答案 0 :(得分:0)
Tesseract总体上仍然给我带来了非常糟糕的结果,但是使用简单的扩张算法使文本变粗体会有所帮助。
最后,由于字体实际上是方形的,所以我使用了一个技巧,即为每个数字定义一串线段,并根据哪些线段相交或不与数字相交,我可以确定99%准确度是哪个数字。