我正在开发一个应用程序,使用OpenCV和tesseract作为OCR引擎读取识别徽章。我使用OpenCV编写了一个算法,该算法处理文本检测,以便获得清晰且易于阅读的#34;我的OCR引擎的图像。我在下面添加一张图片来说明我得到的内容:
当我要求tesseract"阅读"图像,我得到" KO 978" ...正在寻找这个" O / Q问题"使用tesseract,我只找到了这篇文章https://groups.google.com/forum/#!topic/tesseract-issues/kEDIIpQ-9W4,但是在这里,似乎是tesseract的输入图像没有被清楚地预处理(响应是图像没有被歪斜)...
基于github的wiki部分,我遵循了改进质量的所有步骤(我认为图像是明确的),所以我不知道我还能做什么...我不知道是否培训OCR会有所帮助,但如果可能的话,我希望避免这样做,因为在文档中不建议这样做。
我在控制台中使用tesseract v3.03,未集成在我的应用程序中(因此tessarct会对输入图像进行预处理)。
如何解决这个问题?谢谢!
答案 0 :(得分:1)
您可以训练语言文件以提高准确性。 This article will help you for training
在接受tesseract语言文件培训时,请注意unicharambigs file
另一种观点是,您可以对图像进行二值化/阈值处理等预处理。