solr - Solr从image和imagePdf文件中提取文本

我正在使用Solr-6.5.1，我想从Image文件和ImagePdf文件中提取文本。为此，我安装了TesseractOcr并以两种方式使用solr进行了配置：

1。为TESSDATA_PREFIX = C：\ Program Files（x86）\ Tesseract-OCR设置了环境变量，并且我使用了/ update / extract请求处理程序来索引包含内容的图像。

2。我将solr lib中的tika-parsers-1.13 jar文件中的tesseractOCRConfig.properties文件修改为“ tesseractPath = C：/ Program Files（x86）/ Tesseract-OCR”，并且我使用了/ update / extract请求处理程序来用内容索引image / imagePdf。

在这两种方式下，我也没有得到任何内容，但是响应仅给出attr_x_parsed_by = org.apache.tika.parser.ocr.TesseractOCRParser。

我需要为TesseractOcr设置solr来提取Image / ImagePdf文件的内容。预先感谢。

Solr从image和imagePdf文件中提取文本

0 个答案: