应用错误收集

从PDF中提取图像中的文本

时间：2015-08-18 19:10:43

标签： java pdf itext ocr pdfbox

假设我的用户去了他们办公室的扫描仪。扫描仪能够生成扫描文档的PDF。这基本上就是我拥有的文件类型。

我想要做的是从此PDF中提取文本。这不是第一代＆＃34; pdf，因为文本没有嵌入到pdf中。文本嵌入在PDF中的图像中。

PDFBox的iText中是否有功能可以检索此数据？如果可能的话，我试图避免在图像上进行OCR。我希望在IText或PDFBox中有一些东西可以做到这一点。

请注意，我不是在谈论提取＆＃34;正常＆＃34;文本形成pdf，如下所述：How to get raw text from pdf file using java

1 个答案:

答案 0 :(得分：2)

好的，看了一下之后，似乎没有办法专门用iText或PDFBox做这个，但看起来像PDFBox确实有第三方软件插件可以完成你需要的东西。如果感兴趣，链接为here和here，来自here（来自@TilmanHausherr）。