我在iPhone应用程序中使用Tesseract OCR引擎从账单发票照片中读取特定的数字字段。 使用大量的照片预处理(自适应阈值处理,伪像清理等),结果最终相当准确,但仍有一些情况需要改进。
如果用户在光线不足的情况下拍摄照片并且图片中存在一些噪点或瑕疵,则OCR引擎会将这些瑕疵解释为附加数字。在某些后方情况下,它可以读取,例数字金额为“32,15”EUR为“5432,15”EUR,这对最终用户对该产品的信心并不好。
我假设,如果有一个内部OCR引擎读取错误与每个字符读取相关联,它将在我之前示例的“54”数字上更高,因为它们在小噪声像素上被识别,并且如果我有权访问此读数错误值,我将能够轻松丢弃错误的数字。
您是否了解从tesseract OCR引擎返回的每个字符获取读数误差幅度(或任何“精度因子”值)的方法?
答案 0 :(得分:4)
在Tesseract术语中称为“置信度”值。在tesseract-ocr Group中搜索该术语,提出了很多关于TesserractExtractResult方法的答案。
hOCR output也包含此值。