如何提高Tesseract / Tessnet2的识别速度和准确度?

时间:2011-09-14 12:10:37

标签: performance ocr tesseract tessnet2

我已经看到,为了限制扫描错误,您可以为字符定义白名单。

但是我找不到ocr.Init(@"c:\temp", "fra", false);

中bool numericMode的信息

假设您只想扫描数字: 将白名单设置为“0123456789”对于获得最佳识别结果是正确的,但Init方法的numericMode参数有何作用? 即使白名单是“0123456789”,我也一直认为它是假的。

还有什么是最佳的Bitmap参数(pixelformat),以供图像提供给tessnet。

2 个答案:

答案 0 :(得分:1)

Tesseract FAQ中列出了扫描号码的问题。如果你有版本3,你应该只能发出命令:

tesseract image.tif outputbase nobatch digits

答案 1 :(得分:1)

根据经验,数字模式会将结果限制为数字和支持字符。我见过“0123456789,。+ - / *%<> $(){}”等等。允许使用货币符号。

另外根据我的经验,我没有看到减少比特深度格式对全彩色图像的任何好处。但是,我没有优化速度,只有精度。如果你的字体很小(小写> = 8像素高),那么放大图像可以真正提高准确性。