如何训练tesseract使用checkdigit进行文本检测

时间:2018-05-24 13:22:45

标签: ocr tesseract checksum

我需要构建一个能够将相当中等质量的图像扫描到文本的OCR引擎。

这些文本包含使用严格的checkdigit机制的IBAN和类似的数字。

简而言之:IBAN看起来像这样:DE44 5001 0517 5407 3249 31,在这种情况下44是检查点。 (通过将alpha字符转换为数字并计算mod 97来计算这些工作)

我理解ocr机器的方式是他们计算每个char的启发式概率 - 为每个char获取最佳匹配。字典有助于找到正确的结果。

是否有可能告诉tesseract尝试根据这种数学方法检测正确的“单词”?

1 个答案:

答案 0 :(得分:0)

您还可以使用现成的解决方案,如Microblink的BlinkInput,其中校验位计算是开发时间很多,也是SDK最重要的部分之一。有关详细信息,请访问以下链接:https://microblink.com/products/blinkinput/mobile-sdk 免责声明:我为创建BlinkInput的公司工作 此致