我需要从已使用OCR程序转换的PDF中提取文本。我是否使用普通的PDFReader来获取文本,或者OCR转换后的PDF需要特殊处理吗?
答案 0 :(得分:2)
这取决于它是如何被改变的。许多OCR应用程序以某种方式将文本放在图像下。有些人通过首先放置文本将图像放在顶部来完成此操作。有些将图像放在底部,然后使用“不标记”传输模式将文本放在顶部。
我提到这一点是因为我无法预测任何特定的文本提取工具如何响应透明文本。理论上,它应该只给你文本(这是Acrobat的作用)。在所有文本提取工具中是否实际发生这种情况是任何人的猜测。
答案 1 :(得分:0)
有许多用于处理pdf文件的商业SDK。 http://www.foxitsoftware.com/pdf/sdk/activex/这是福克斯的。