我已经看到,为了限制扫描错误,您可以为字符定义白名单。
但是我找不到ocr.Init(@"c:\temp", "fra", false);
假设您只想扫描数字: 将白名单设置为“0123456789”对于获得最佳识别结果是正确的,但Init方法的numericMode参数有何作用? 即使白名单是“0123456789”,我也一直认为它是假的。
还有什么是最佳的Bitmap参数(pixelformat),以供图像提供给tessnet。
答案 0 :(得分:1)
Tesseract FAQ中列出了扫描号码的问题。如果你有版本3,你应该只能发出命令:
tesseract image.tif outputbase nobatch digits
答案 1 :(得分:1)
根据经验,数字模式会将结果限制为数字和支持字符。我见过“0123456789,。+ - / *%<> $(){}”等等。允许使用货币符号。
另外根据我的经验,我没有看到减少比特深度格式对全彩色图像的任何好处。但是,我没有优化速度,只有精度。如果你的字体很小(小写> = 8像素高),那么放大图像可以真正提高准确性。