标签: solr solr4 apache-tika sunspot-solr
如何使用solr 6.4.1配置Tika OCR。 我索引了包括PDF,图像和MS office文档在内的文件,但是发生了问题Tika没有从图像中提取文本,也没有从PDF和MS office文档中的图像中提取文本。为此,我研究了Tika OCR。 为此我正在安装tika-app-1.7.jar和Tesseract,但我不知道如何用我的solr核心配置它们。
答案 0 :(得分:2)
你不需要做任何特别的事情。只需为您的发行版获取Tesseract OCR设置,并在系统上install 。确保您的/update/extract变量具有Tesseract主目录的条目,并设置{{1}}变量并指向Tesseract主目录。重新启动Solr,你很高兴。当您通过{{1}}处理程序将文档推送到索引时,您应该能够看到OCR组件。
/update/extract
默认情况下,Tesseract仅附带英文模型。从here获取其他语言的模型。