应用错误收集

我无法使用Tesseract获得准确的OCR结果。我有一系列带有时间，日期，纬度和经度文本的小图像，我试图让Tesseract读取。图像是从视频中裁剪出来的，有些是低质量的每组的图像都具有相同的格式（例如时间：##：##：##，见下图）但是，Tesseract正在给出不同的结果。例如，显示＆＃34; 14：10：08＆＃34;读为＆＃34; 142：＆＃34; （数据集中最糟糕的结果之一）我已经为这些图像训练了Tesseract，这改善了结果。

我的主要问题是：有没有办法指定Tesseract应该阅读的字符数？在这种情况下，像tesseract time.png time -num_char 8这样的东西？或者有没有办法指定tesseract应该实现的blob / box的宽度？

我已经尝试过配置文件（正如on this site所述），但是有很多设置，我不理解许多解释（是＆＃34; Max制作行的blob宽度＆＃34;我正在寻找什么？似乎没有帮助......）。

感谢您的任何建议。

Tesseract OCR指定字符的数量/位置

0 个答案: