我无法使用Tesseract获得准确的OCR结果。我有一系列带有时间,日期,纬度和经度文本的小图像,我试图让Tesseract读取。图像是从视频中裁剪出来的,有些是低质量的 每组的图像都具有相同的格式(例如时间:##:##:##,见下图) 但是,Tesseract正在给出不同的结果。例如,显示" 14:10:08"读为" 142:" (数据集中最糟糕的结果之一) 我已经为这些图像训练了Tesseract,这改善了结果。
我的主要问题是:有没有办法指定Tesseract应该阅读的字符数?在这种情况下,像tesseract time.png time -num_char 8
这样的东西?或者有没有办法指定tesseract应该实现的blob / box的宽度?
我已经尝试过配置文件(正如on this site所述),但是有很多设置,我不理解许多解释(是" Max制作行的blob宽度"我正在寻找什么?似乎没有帮助......)。
感谢您的任何建议。