目标是使用tesseract在ocr应用程序上进行开发,我不想使用tess-two,因为它可以在较旧版本的tesseract上运行。因此,经过一番研究,我发现this library使用的是tesseract 4,它是特斯二叉。我可以使用该库从图像中提取文本。但我的问题是,有时同一图像给出80%的文本,有时却给出2%的结果。这是图片:
和ocr结果
,而具有表格格式的图像则没有给出任何结果,只有随机字母。
我是ocr的新手,预处理,有人可以帮助我如何提高图像的准确性吗?我已经阅读了可以完成的预处理程序,这对您有帮助吗?如何执行?
谢谢!