Question

我正在使用tess-two（Tesseract OCR引擎的Android端口）。我是OCR的账单和收据。我正在使用OpenCV 3.0来预处理图像。我已成功将票据与自适应阈值处理一起制作成二进制图像。

原始图片：

原始的二进制阈值：

Tesseract输出。

PH:26051246/26145398
TIN=276302417620
CQSH/BILL
NO 009762 0 m 0 09-07-2015
DESCRIPTION on mm mu
_.__________
m 3.990 75.18 zoo-00
_____\
CASH 300-00
m: YOU----UISIT 9691!!
w TIN:276302417620
-\ c1 09:27:58 we no. 0

目前我已经训练了3种点阵字体和两种商家复制字体。我已关闭字典并为所有五种字体添加了用户字。它们是票据和收据中常用的术语。奇怪的是，这些变化似乎并没有对输出产生任何影响。我调整了图像的大小，使字体大小至少为12磅。如何进一步提高准确度？任何人都可以指定字体，或者我应该重新训练字体。

提高Tesseract的准确性

0 个答案: