我想生成一个具有图像和可识别文本的json对象并从另一个系统接收到的 的图像的json对象。
重要的是要强调一点,我不想使用其他的OCR引擎,例如tesseract或其他引擎。 我想使用提供的json对象(来自外部系统),其中包含图像的所有文本和坐标。
这里的任何人有一些图书馆的想法吗?
如果能帮助到我,我将不胜感激...
谢谢...
答案 0 :(得分:1)
这里的任何人有一些图书馆的想法吗?
这是一个代码示例,可从Tesseract输出生成PDF。您需要用OCR引擎替换Tesseract:https://tech.io/playgrounds/10058/scanned-pdf-to-ocr-textsearchable-pdf-using-c
它的关键部分是使用ITextSharp和Ghostscript。 ITextSharp不是用于OCR,而是用于其他任务。
当然,另一种选择是使用已返回searchable PDF的ocr服务。