应用错误收集

在Tesseract词典文件中使用正则表达式

时间：2013-11-13 15:42:34

标签： regex dictionary tesseract

我目前正在使用Tesseract OCR，并想知道是否可以将正则表达式添加到字典文件中。

根据我的假设，Tesseract发现的每个单词都会根据字典进行检查，以提高结果的准确性。

现在我想搜索一个8位数的字符串的例子，然后我希望能够将这样的正则表达式添加到'字典'中，这样可以确保这8个数字中没有字母。

这可能吗？如果是这样，怎么样？

到目前为止我才发现这一点，目前我们在3.02上：http://code.google.com/p/tesseract-ocr/issues/detail?id=289

1 个答案:

答案 0 :(得分：1)

您可以在Tesseract中使用bazaar匹配模式。