使用C#使用图像和json图像文本对象创建可搜索的PDF

时间:2018-07-02 17:41:43

标签: c# json pdf searchable

我想生成一个具有图像和可识别文本的json对象并从另一个系统接收到的 的图像的json对象。

重要的是要强调一点,我不想使用其他的OCR引擎,例如tesseract或其他引擎。 我想使用提供的json对象(来自外部系统),其中包含图像的所有文本和坐标。

这里的任何人有一些图书馆的想法吗?

如果能帮助到我,我将不胜感激...

谢谢...

1 个答案:

答案 0 :(得分:1)

  

这里的任何人有一些图书馆的想法吗?

这是一个代码示例,可从Tesseract输出生成PDF。您需要用OCR引擎替换Tesseract:https://tech.io/playgrounds/10058/scanned-pdf-to-ocr-textsearchable-pdf-using-c

它的关键部分是使用ITextSharp和Ghostscript。 ITextSharp不是用于OCR,而是用于其他任务。

当然,另一种选择是使用已返回searchable PDF的ocr服务。