应用错误收集

我正在尝试对tesseract进行OCR。我可以按预期使用tesseract java lib将pdf转换为文本。我的要求现在扩展了一点。我需要基于模板形式（护照种类的例子，其中我们可以确定名字，出生日期等）来提取元数据。输入可以是pdf或具有相同模板格式的图像。

使用tesseract，我很难找到任何这样的示例或文章来实现或获得更多帮助。

所以我的基本问题：

感谢阅读。