我正在使用Tesseract 4.0,我正试图OCR一些发票。我的问题是它给某些字母带来了错误的结果,例如,当字母实际为S时,我会得到$或8。
奇怪的是,有些S是正确的猜测,但是有些S或不是,这也适用于其他字母。
我的问题是,我如何训练Tesseract更好地处理这些案件?
另外,如果Tesseract错误地将S.A.中的S误解为因为点数而成为一个数字,我感到很奇怪。
我附上了我遇到问题的image。
谢谢,
珊
答案 0 :(得分:1)
你真的不能训练"正方体。您可以做的是调整您传递的图片的对比度和/或亮度,以获得更好的效果。 Tesseract还允许您使用-l选项指定文本所使用的语言,尽管我无法真正说明其准确性有所提高,但您的里程可能会有所不同。
答案 1 :(得分:0)