从可搜索的pdf中读取,没有ocr

时间:2011-12-14 20:44:56

标签: pdf

我正在使用我的扫描仪将我的PDF转换为可搜索的PDF。 OCR已经处理好了,因为我可以在PDF中使用ctrl-f。

我如何从我的程序中获取OCR的内容。

我愿意使用java,ruby,这个问题是一种与编程语言无关的问题。通过读取文件可以公开访问OCR文本吗?

1 个答案:

答案 0 :(得分:1)

不确定您的OCR软件如何创建PDF,但您是否可以使用third-party library (jPedal)iTextXPDF等工具从生成的PDF中提取文字?