旧版本的Adobe PDF用于以一种特定方式区分可搜索的PDF /图像PDF。在可搜索的PDF中,当您尝试选择灰色文本框时(无选择文本),您可以选择仅文本和图像pdf。这是之前的拇指规则。但是现在有了Adobe DC,这已经改变了。 Adobe DC,允许您为图像pdf / s选择文本(不可搜索的pdf)。但是如果您尝试复制和粘贴,它不会粘贴您复制的内容,而是会获得一些特殊字符。知道为什么Adobe DC会这样做吗?什么是拇指规则,以找出什么是可搜索的PDF和什么是图像pdf(非ocr pdf)?
一些非OCR pdf文档在尝试执行OCR时,会收到“可渲染文本”错误,并且这些页面的OCR失败。消除此“此页面包含可渲染文本”错误的最佳方法是什么,以及OCR此类页面的最佳方法是什么。
如何在C#中以编程方式编写OCR pdf文档?如果这需要更多时间,那么处理会话超时的方法是什么?无论如何要在后台进行OCR并在结束时发送给用户(想法是不要将用户保留在前端,并且仍然有一些方法可以在完成该过程后将创建的文件传递给提交者)。 / p>
答案 0 :(得分:1)
如果您尝试OCR并获取"页面包含可渲染文本"错误,这意味着该文件已包含文本。同样,文本可能被隐藏,但它就在那里。以下文章更多地解释了这一点:
https://helpx.adobe.com/acrobat/kb/error-could-perform-recognition-acrobat.html
有几个SDK支持使用C#打开和OCRing PDF文件。 StackOverflow的这个区域不是要求建议的地方。请改为https://softwarerecs.stackexchange.com/。