使用.NET / C#尝试OCR PDF时出现的问题

时间:2018-03-14 19:16:17

标签: c# pdf ocr

  1. 旧版本的Adobe PDF用于以一种特定方式区分可搜索的PDF /图像PDF。在可搜索的PDF中,当您尝试选择灰色文本框时(无选择文本),您可以选择仅文本和图像pdf。这是之前的拇指规则。但是现在有了Adobe DC,这已经改变了。 Adobe DC,允许您为图像pdf / s选择文本(不可搜索的pdf)。但是如果您尝试复制和粘贴,它不会粘贴您复制的内容,而是会获得一些特殊字符。知道为什么Adobe DC会这样做吗?什么是拇指规则,以找出什么是可搜索的PDF和什么是图像pdf(非ocr pdf)?

  2. 一些非OCR pdf文档在尝试执行OCR时,会收到“可渲染文本”错误,并且这些页面的OCR失败。消除此“此页面包含可渲染文本”错误的最佳方法是什么,以及OCR此类页面的最佳方法是什么。

  3. 如何在C#中以编程方式编写OCR pdf文档?如果这需要更多时间,那么处理会话超时的方法是什么?无论如何要在后台进行OCR并在结束时发送给用户(想法是不要将用户保留在前端,并且仍然有一些方法可以在完成该过程后将创建的文件传递给提交者)。 / p>

1 个答案:

答案 0 :(得分:1)

  1. 如果PDF页面包含没有文本的图像,从中获取文本的唯一方法是使用OCR。 Adobe Acrobat DC和某些早期版本的Acrobat都具有OCR功能,但据我所知,您只能OCR一个或多个页面,而不是一个小的选择。
    这意味着如果您有一个图像,并且Acrobat允许您在不显式运行OCR的情况下从中选择文本,则很可能该文件已在图像上包含图像文本或隐藏文本。如果在复制和粘贴文本时文本出现乱码,则可能是在OCR文件被保存时的存储方式。这可能是因为文本质量对于OCR来说不够好,或者用于执行OCR的软件质量很差并且字符不正确。
  2. 如果您尝试OCR并获取"页面包含可渲染文本"错误,这意味着该文件已包含文本。同样,文本可能被隐藏,但它就在那里。以下文章更多地解释了这一点:
    https://helpx.adobe.com/acrobat/kb/error-could-perform-recognition-acrobat.html

  3. 有几个SDK支持使用C#打开和OCRing PDF文件。 StackOverflow的这个区域不是要求建议的地方。请改为https://softwarerecs.stackexchange.com/