我们可以使用正则表达式作为Tesseract中的变量传递吗?

时间:2015-12-04 03:23:02

标签: java tess4j

我们可以通过正则表达式提高Tesseract字符识别的准确性。 例如,我们告诉Tesseract文本可以有这种结构。

4characters2Digits [4Digits] 3char4Digits2char

//我们在图像中的字符串是" abcd12 [2222] aBc000AB"

//我们的正则表达式可以像这样

String reg = "[a-zA-Z]{4}\d{2}\[\d{4}\][a-zA-Z]{3}\d{3}[a-zA-Z]{2}";

我认为这种Tesseract会更好地识别角色。

我们也可以设置

tesseract.setTessVariable("tessedit_char_whitelist", "0123456789[]abc...Z");

注意:我正在使用Java语言。 Tess4j

谢谢!

1 个答案:

答案 0 :(得分:0)

您可以尝试bazaar模式,它支持有限的Regex子集。