我的数据库将简历存储为blob数据字段。简历可以是Microsoft word,pdf或图像(.jpg等)。如何从这些不同的文件类型(特别是.jpg文件)中创建Lucene索引?蒂卡可以看懂扫描的图像吗?
答案 0 :(得分:1)
从图像中提取图像时,还可以通过TesseractOCRParser在Tesseract中进行链接,以对图像的内容执行OCR。
查看有关图像的Apache Tika文档:https://tika.apache.org/1.20/formats.html#Image_formats