Question

我们可以通过正则表达式提高Tesseract字符识别的准确性。例如，我们告诉Tesseract文本可以有这种结构。

4characters2Digits [4Digits] 3char4Digits2char

//我们在图像中的字符串是＆＃34; abcd12 [2222] aBc000AB＆＃34;

//我们的正则表达式可以像这样

String reg = "[a-zA-Z]{4}\d{2}\[\d{4}\][a-zA-Z]{3}\d{3}[a-zA-Z]{2}";

我认为这种Tesseract会更好地识别角色。

我们也可以设置

tesseract.setTessVariable("tessedit_char_whitelist", "0123456789[]abc...Z");

注意：我正在使用Java语言。 Tess4j

谢谢！

Answer 1

您可以尝试bazaar模式，它支持有限的Regex子集。