任何java库? 如何使用任何java库制作可搜索的文本? 开源或付费。
如何使用PDFBox将OCR应用于pdf? 如何使用pdfbox以编程方式搜索pdf文本 我搜索了很多。没有找到任何解决方案。 任何人都可以粘贴OCR PDFBox的代码。
答案 0 :(得分:0)
提取文字:Textextraction。
答案 1 :(得分:0)
任何java库?如何使用任何java库制作可搜索的文本?开源或付费。
您可以使用Gnostice XtremeDocumentStudio for Java实现此目的。有关详细信息,请点击以下链接。
仅供参考,在文章中,我们演示了如何将扫描图像转换为可搜索的PDF。实际上,输入可以是任何扫描的文档(图像,PDF或DOCX)。
免责声明:我为Gnostice工作。
答案 2 :(得分:0)
您可以使用 PDFBox 从 PDF 文件中提取图像,然后使用您选择的 OCR 系统(例如 Tesseract)来获取文本。或者,如果 PDF 是混合文本和图像,您可以使用 Ghostscript 创建每个 PDF 页面的图像,然后运行 OCR。
如果您随后需要一个可搜索的 PDF 文件,请先编写文本,然后在文本顶部绘制图像来构建新的 PDF。文本可搜索,但您只能看到图像。
请注意,像 Tesseract 和 Google Vision 这样的 OCR 引擎会返回每个单词的位置信息,因此您可以将文本放置在正确的位置。