我正在某些图像中使用Tesseract 2.04执行OCR,现在我要获得文本的精确位置ocearized。但是这个版本不会返回此信息。
我需要这个来生成可搜索的pdf文件。我已经学会了如何在pdf的下层标记文本,但我需要在该文本上标记该位置。 我的第一个想法是在pdf中执行ocr,获取文本的文本和位置,用iText api标记在pdf中。
答案 0 :(得分:6)
在iText的内部,我们也研究过OCR。并且它是可能的(使用Tesseract)。
的工作流程:
您可以做更多优化。一小段建议:
这不是一件容易的事。但肯定是可能的。