如何在文档扫描图像等地方创建Lucene索引?

时间:2019-05-13 11:12:32

标签: lucene apache-tika

我的数据库将简历存储为blob数据字段。简历可以是Microsoft word,pdf或图像(.jpg等)。如何从这些不同的文件类型(特别是.jpg文件)中创建Lucene索引?蒂卡可以看懂扫描的图像吗?

1 个答案:

答案 0 :(得分:1)

  

从图像中提取图像时,还可以通过TesseractOCRParser在Tesseract中进行链接,以对图像的内容执行OCR。

查看有关图像的Apache Tika文档:https://tika.apache.org/1.20/formats.html#Image_formats