应用错误收集

如何在文档扫描图像等地方创建Lucene索引？

时间：2019-05-13 11:12:32

标签： lucene apache-tika

我的数据库将简历存储为blob数据字段。简历可以是Microsoft word，pdf或图像（.jpg等）。如何从这些不同的文件类型（特别是.jpg文件）中创建Lucene索引？蒂卡可以看懂扫描的图像吗？

1 个答案:

答案 0 :(得分：1)

从图像中提取图像时，还可以通过TesseractOCRParser在Tesseract中进行链接，以对图像的内容执行OCR。

查看有关图像的Apache Tika文档：https://tika.apache.org/1.20/formats.html#Image_formats