标签: forms templates ocr tesseract text-recognition
我正在尝试对tesseract进行OCR。我可以按预期使用tesseract java lib将pdf转换为文本。我的要求现在扩展了一点。我需要基于模板形式(护照种类的例子,其中我们可以确定名字,出生日期等)来提取元数据。输入可以是pdf或具有相同模板格式的图像。
使用tesseract,我很难找到任何这样的示例或文章来实现或获得更多帮助。
所以我的基本问题:
感谢阅读。