具有基于修复模板的表单的OCR(例如Passport)

时间:2018-10-18 10:07:20

标签: forms templates ocr tesseract text-recognition

我正在尝试对tesseract进行OCR。我可以按预期使用tesseract java lib将pdf转换为文本。我的要求现在扩展了一点。我需要基于模板形式(护照种类的例子,其中我们可以确定名字,出生日期等)来提取元数据。输入可以是pdf或具有相同模板格式的图像。

使用tesseract,我很难找到任何这样的示例或文章来实现或获得更多帮助。

所以我的基本问题:

  1. 使用tesseract可以吗?
  2. 是否存在有关如何使用tesseract实现此目的的示例/文章?
  3. 是否还建议使用其他软件/库来实现这一目标?

感谢阅读。

0 个答案:

没有答案