标签: ocr tesseract
我想使用Tesseract从文档中提取大约10-20个关键字。该文件将包含所有英文字符/单词。我感兴趣的是“年龄:23岁”。这里Age是我感兴趣的关键字,并且想要提取23(该值的值)。
我想到的第一种方法是将整个页面提取到文本中,然后在识别的文本中查找关键字。但是在培训tesseract方面,如果我知道关键字,可能会有更好的准确性吗?
我或多或少地意识到Tesseract OCR的局限性。试图在这个限制内最大化。感谢您的所有专家建议。
答案 0 :(得分:4)
在Tesseract中尝试bazaar匹配模式。