应用错误收集

如何训练tesseract识别低DPI中的小数字？

时间：2011-11-24 19:30:10

标签： image-processing ocr tesseract

我从视频中获取数据，因此无法重新扫描图像，但我可以根据需要进行缩放。

我只有有限数量的字符1234567890:，但我无法控制原始图像或字体的dpi。

我试图训练tesseract但没有任何明显效果，测试项目位于https://github.com/ssbarnea/tesseract-sample，但目前的结果非常糟糕。

捕获原始图像的示例：

enter image description here

OCR的后处理图像示例：

enter image description here

在这种情况下，如何改进OCR流程？

1 个答案:

答案 0 :(得分：1)

您可以尝试在图像的边缘添加一些额外的空间，有时它有助于tesseract。但是，开源OCR引擎对源图像DPI非常敏感。