如何训练tesseract识别低DPI中的小数字?

时间:2011-11-24 19:30:10

标签: image-processing ocr tesseract

我从视频中获取数据,因此无法重新扫描图像,但我可以根据需要进行缩放。

我只有有限数量的字符1234567890:,但我无法控制原始图像或字体的dpi。

我试图训练tesseract但没有任何明显效果,测试项目位于https://github.com/ssbarnea/tesseract-sample,但目前的结果非常糟糕。

捕获原始图像的示例:

enter image description here

OCR的后处理图像示例:

enter image description here

在这种情况下,如何改进OCR流程?

1 个答案:

答案 0 :(得分:1)

您可以尝试在图像的边缘添加一些额外的空间,有时它有助于tesseract。但是,开源OCR引擎对源图像DPI非常敏感。