Question

我正在使用Tesseract，我想开发一个能够识别一系列字符的应用程序。我的成绩不错，但并不好。

我想要阅读的字符序列始终特定模式，让我们说：

号码号码char char - （例如：123AB）

有没有办法“告诉”ocr引擎结构总是固定的，以便改善识别结果？

提前谢谢。

Answer 1

在Tesseract中尝试bazaar匹配模式：

\d\d\d\c\c

Answer 2

您可以使用＆＃34; tessedit_char_whitelist＆＃34;参数