我们可以通过正则表达式提高Tesseract字符识别的准确性。 例如,我们告诉Tesseract文本可以有这种结构。
4characters2Digits [4Digits] 3char4Digits2char
//我们在图像中的字符串是" abcd12 [2222] aBc000AB"
//我们的正则表达式可以像这样
String reg = "[a-zA-Z]{4}\d{2}\[\d{4}\][a-zA-Z]{3}\d{3}[a-zA-Z]{2}";
我认为这种Tesseract会更好地识别角色。
我们也可以设置
tesseract.setTessVariable("tessedit_char_whitelist", "0123456789[]abc...Z");
注意:我正在使用Java语言。 Tess4j
谢谢!