我正在使用tess-two(Tesseract OCR引擎的Android端口)。我是OCR的账单和收据。我正在使用OpenCV 3.0来预处理图像。我已成功将票据与自适应阈值处理一起制作成二进制图像。
原始图片:
原始的二进制阈值:
Tesseract输出。
PH:26051246/26145398
TIN=276302417620
CQSH/BILL
NO 009762 0 m 0 09-07-2015
DESCRIPTION on mm mu
_.__________
m 3.990 75.18 zoo-00
_____\
CASH 300-00
m: YOU----UISIT 9691!!
w TIN:276302417620
-\ c1 09:27:58 we no. 0
目前我已经训练了3种点阵字体和两种商家复制字体。我已关闭字典并为所有五种字体添加了用户字。它们是票据和收据中常用的术语。奇怪的是,这些变化似乎并没有对输出产生任何影响。 我调整了图像的大小,使字体大小至少为12磅。如何进一步提高准确度?任何人都可以指定字体,或者我应该重新训练字体。