应用错误收集

时间：2014-04-04 12:22:19

标签： java ocr pdfbox

任何java库？如何使用任何java库制作可搜索的文本？开源或付费。

如何使用PDFBox将OCR应用于pdf？如何使用pdfbox以编程方式搜索pdf文本我搜索了很多。没有找到任何解决方案。任何人都可以粘贴OCR PDFBox的代码。

答案 0 :(得分：0)

提取文字：Textextraction。

答案 1 :(得分：0)

任何java库？如何使用任何java库制作可搜索的文本？开源或付费。

您可以使用Gnostice XtremeDocumentStudio for Java实现此目的。有关详细信息，请点击以下链接。

仅供参考，在文章中，我们演示了如何将扫描图像转换为可搜索的PDF。实际上，输入可以是任何扫描的文档（图像，PDF或DOCX）。

免责声明：我为Gnostice工作。

答案 2 :(得分：0)

您可以使用 PDFBox 从 PDF 文件中提取图像，然后使用您选择的 OCR 系统（例如 Tesseract）来获取文本。或者，如果 PDF 是混合文本和图像，您可以使用 Ghostscript 创建每个 PDF 页面的图像，然后运行 OCR。

如果您随后需要一个可搜索的 PDF 文件，请先编写文本，然后在文本顶部绘制图像来构建新的 PDF。文本可搜索，但您只能看到图像。

请注意，像 Tesseract 和 Google Vision 这样的 OCR 引擎会返回每个单词的位置信息，因此您可以将文本放置在正确的位置。