应用错误收集

如何处理我的图像以帮助Tesseract？

时间：2019-02-17 05:51:48

标签： ocr tesseract

我有一些只包含数字和分号的图像。

示例：

您可以在此处查看更多信息：https://imgur.com/a/54dsl6h

对我来说，它们看起来很干净直接，但是Tesseract认为它们是空的“页面”（delete is;）。

我同时尝试了oem 1和oem 0以及字符列表：

Empty page!!
tesseract processed/35.0.png stdout -c tessedit_char_whitelist=0123456789: --oem 0

如何使Tesseract更好地识别角色？

1 个答案:

答案 0 :(得分：0)

Tesseract总体上仍然给我带来了非常糟糕的结果，但是使用简单的扩张算法使文本变粗体会有所帮助。

最后，由于字体实际上是方形的，所以我使用了一个技巧，即为每个数字定义一串线段，并根据哪些线段相交或不与数字相交，我可以确定99％准确度是哪个数字。