假设我的用户去了他们办公室的扫描仪。扫描仪能够生成扫描文档的PDF。这基本上就是我拥有的文件类型。
我想要做的是从此PDF中提取文本。这不是第一代" pdf,因为文本没有嵌入到pdf中。文本嵌入在PDF中的图像中。
PDFBox的iText中是否有功能可以检索此数据?如果可能的话,我试图避免在图像上进行OCR。我希望在IText或PDFBox中有一些东西可以做到这一点。
请注意,我不是在谈论提取"正常"文本形成pdf,如下所述:How to get raw text from pdf file using java