如何使用任何Java库可以搜索现有的PDF文本?有了OCR

时间:2014-04-04 12:22:19

标签: java ocr pdfbox

任何java库? 如何使用任何java库制作可搜索的文本? 开源或付费。

如何使用PDFBox将OCR应用于pdf? 如何使用pdfbox以编程方式搜索pdf文本 我搜索了很多。没有找到任何解决方案。 任何人都可以粘贴OCR PDFBox的代码。

3 个答案:

答案 0 :(得分:0)

尝试Apache PDFBox

提取文字:Textextraction

答案 1 :(得分:0)

  

任何java库?如何使用任何java库制作可搜索的文本?开源或付费。

您可以使用Gnostice XtremeDocumentStudio for Java实现此目的。有关详细信息,请点击以下链接。

http://www.gnostice.com/nl_article.asp?id=289&t=How_to_convert_scanned_images_to_searchable_PDF_in_Java

仅供参考,在文章中,我们演示了如何将扫描图像转换为可搜索的PDF。实际上,输入可以是任何扫描的文档(图像,PDF或DOCX)。

免责声明:我为Gnostice工作。

答案 2 :(得分:0)

您可以使用 PDFBox 从 PDF 文件中提取图像,然后使用您选择的 OCR 系统(例如 Tesseract)来获取文本。或者,如果 PDF 是混合文本和图像,您可以使用 Ghostscript 创建每个 PDF 页面的图像,然后运行 ​​OCR。

如果您随后需要一个可搜索的 PDF 文件,请先编写文本,然后在文本顶部绘制图像来构建新的 PDF。文本可搜索,但您只能看到图像。

请注意,像 Tesseract 和 Google Vision 这样的 OCR 引擎会返回每个单词的位置信息,因此您可以将文本放置在正确的位置。