应用错误收集

训练Tesseract特定单词 - 可能吗？

时间：2013-09-07 13:58:44

标签： ocr tesseract

我想使用Tesseract从文档中提取大约10-20个关键字。该文件将包含所有英文字符/单词。我感兴趣的是“年龄：23岁”。这里Age是我感兴趣的关键字，并且想要提取23（该值的值）。

我想到的第一种方法是将整个页面提取到文本中，然后在识别的文本中查找关键字。但是在培训tesseract方面，如果我知道关键字，可能会有更好的准确性吗？

我或多或少地意识到Tesseract OCR的局限性。试图在这个限制内最大化。感谢您的所有专家建议。

1 个答案:

答案 0 :(得分：4)

在Tesseract中尝试bazaar匹配模式。