使用solr 6.4.1配置Tesseract

时间:2017-03-25 15:00:22

标签: solr solr4 apache-tika sunspot-solr

如何使用solr 6.4.1配置Tika OCR。 我索引了包括PDF,图像和MS office文档在内的文件,但是发生了问题Tika没有从图像中提取文本,也没有从PDF和MS office文档中的图像中提取文本。为此,我研究了Tika OCR。 为此我正在安装tika-app-1.7.jar和Tesseract,但我不知道如何用我的solr核心配置它们。

1 个答案:

答案 0 :(得分:2)

你不需要做任何特别的事情。只需为您的发行版获取Tesseract OCR设置,并在系统上install 。确保您的/update/extract变量具有Tesseract主目录的条目,并设置{{1}}变量并指向Tesseract主目录。重新启动Solr,你很高兴。当您通过{{1}}处理程序将文档推送到索引时,您应该能够看到OCR组件。

默认情况下,Tesseract仅附带英文模型。从here获取其他语言的模型。