我的软件需要读取固定长度的手写数字。
虽然我可以使用像Tesseract这样的通用库,但我确信有更聪明的东西。 Tesseract可能会将1或7中的一些误解为I或l,而只需要数字的软件则不会。
知道只有数字(美式英语写作方式),算法可以专注于10个潜在的匹配而不是数百个符号。
是否有任何经验OCRing手写的数字字段?
您使用哪种开源库/软件获得了最佳效果?
答案 0 :(得分:5)
来自Tesseract的FAQ:
如何仅识别数字?
在2.03及以上:
使用
在调用Init函数之前TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789");
或将其放在名为
tessdata/configs/digits
的文本文件中tessedit_char_whitelist 0123456789
然后您的命令行变为:
tesseract image.tif outputbase nobatch digits
警告:在旧的和新的配置变量合并之前,必须也有
nobatch
参数。
但我认为,因为它是专为打印而非手写文字而设计的,即使只是数字,准确度也可能会受到影响。