在Tesseract词典文件中使用正则表达式

时间:2013-11-13 15:42:34

标签: regex dictionary tesseract

我目前正在使用Tesseract OCR,并想知道是否可以将正则表达式添加到字典文件中。

根据我的假设,Tesseract发现的每个单词都会根据字典进行检查,以提高结果的准确性。

现在我想搜索一个8位数的字符串的例子,然后我希望能够将这样的正则表达式添加到'字典'中,这样可以确保这8个数字中没有字母。

这可能吗?如果是这样,怎么样?

到目前为止我才发现这一点,目前我们在3.02上:http://code.google.com/p/tesseract-ocr/issues/detail?id=289

1 个答案:

答案 0 :(得分:1)

您可以在Tesseract中使用bazaar匹配模式。