我一直在开发一个使用tesseract OCR(光学字符识别)的android应用程序,并想知道是否有一种方法可以改善小文本的结果。
我尝试用我自己的频繁和正常的单词列表(使用wordlist2dawg)重新编译标准字典,并且没有看到任何改进(我甚至无法判断它是否有帮助!)。我也听说有可能改变tesseract使用词典单词的门槛,但我不知道怎么做。
如果有人知道如何改善结果,tesseract给了我真的很感激!
答案 0 :(得分:3)
我知道一些可能对您有所帮助的选项:
请记住,移动设备中的内置摄像头主要产生低质量图像(模糊,噪声,偏斜等).OCR本身是一个资源消耗过程,如果你添加一个有价值的图像预处理,低端和中型移动设备(可能有Android)可能会出现意外缓慢的性能甚至缺乏资源。这对于免费/学习项目是可以的,但如果您正在计划商业应用程序 - 请考虑使用更好的SDK。
详细了解此问题:OCR for android