我正在使用Solr-6.5.1,我想从Image文件和ImagePdf文件中提取文本。为此,我安装了TesseractOcr并以两种方式使用solr进行了配置:
1。为TESSDATA_PREFIX = C:\ Program Files(x86)\ Tesseract-OCR设置了环境变量,并且我使用了/ update / extract请求处理程序来索引包含内容的图像。
2。我将solr lib中的tika-parsers-1.13 jar文件中的tesseractOCRConfig.properties文件修改为“ tesseractPath = C:/ Program Files(x86)/ Tesseract-OCR”,并且我使用了/ update / extract请求处理程序来用内容索引image / imagePdf。
在这两种方式下,我也没有得到任何内容,但是响应仅给出attr_x_parsed_by = org.apache.tika.parser.ocr.TesseractOCRParser。
我需要为TesseractOcr设置solr来提取Image / ImagePdf文件的内容。 预先感谢。