应用错误收集

如何训练tesseract使用checkdigit进行文本检测

时间：2018-05-24 13:22:45

标签： ocr tesseract checksum

我需要构建一个能够将相当中等质量的图像扫描到文本的OCR引擎。

这些文本包含使用严格的checkdigit机制的IBAN和类似的数字。

简而言之：IBAN看起来像这样：DE44 5001 0517 5407 3249 31，在这种情况下44是检查点。（通过将alpha字符转换为数字并计算mod 97来计算这些工作）

我理解ocr机器的方式是他们计算每个char的启发式概率 - 为每个char获取最佳匹配。字典有助于找到正确的结果。

是否有可能告诉tesseract尝试根据这种数学方法检测正确的“单词”？

1 个答案:

答案 0 :(得分：0)

您还可以使用现成的解决方案，如Microblink的BlinkInput，其中校验位计算是开发时间很多，也是SDK最重要的部分之一。有关详细信息，请访问以下链接：https://microblink.com/products/blinkinput/mobile-sdk 免责声明：我为创建BlinkInput的公司工作此致