我目前正在使用Tesseract OCR,并想知道是否可以将正则表达式添加到字典文件中。
根据我的假设,Tesseract发现的每个单词都会根据字典进行检查,以提高结果的准确性。
现在我想搜索一个8位数的字符串的例子,然后我希望能够将这样的正则表达式添加到'字典'中,这样可以确保这8个数字中没有字母。
这可能吗?如果是这样,怎么样?
到目前为止我才发现这一点,目前我们在3.02上:http://code.google.com/p/tesseract-ocr/issues/detail?id=289