我使用tesseract从图像中获取文本,我只对数字感兴趣。我已经训练了tesseract并创建了一种新的语言,它是图像中的确切字体,训练数据只包括数字。在训练数据中,我还包括了图像中的每个可能值,1-5000是特定的,并且还创建了这些相同值的词表。然而它仍然混合了1和7,有时还混合了3和8.是否有人建议我是否应该重新训练或者在给予tesseract之前对图像进行一些处理?
答案 0 :(得分:1)
2.Tesseract文本识别还取决于图像质量。查看可以使用的可能的预处理算法:Improve Quality of Tesseract