应用错误收集

使用solr 6.4.1配置Tesseract

时间：2017-03-25 15:00:22

标签： solr solr4 apache-tika sunspot-solr

如何使用solr 6.4.1配置Tika OCR。我索引了包括PDF，图像和MS office文档在内的文件，但是发生了问题Tika没有从图像中提取文本，也没有从PDF和MS office文档中的图像中提取文本。为此，我研究了Tika OCR。为此我正在安装tika-app-1.7.jar和Tesseract，但我不知道如何用我的solr核心配置它们。

1 个答案:

答案 0 :(得分：2)

你不需要做任何特别的事情。只需为您的发行版获取Tesseract OCR设置，并在系统上install 。确保您的/update/extract变量具有Tesseract主目录的条目，并设置{{1}}变量并指向Tesseract主目录。重新启动Solr，你很高兴。当您通过{{1}}处理程序将文档推送到索引时，您应该能够看到OCR组件。

默认情况下，Tesseract仅附带英文模型。从here获取其他语言的模型。

如何配置XsltUpdateRequestHandler
我可以将Tesseract配置为仅使用指定长度识别图像中的文本吗？
使用AEM 6.1配置SOLR索引
如何在Solr中为TikaEntityProcessor配置Tesseract语言
使用Solr 6.4.1的重点
将nutch 2.3.1与solr 6.4.1集成，索引作业有问题
在solr 6.4.1中抓取一个URL
使用Solr配置solrnet
使用solr 6.4.1配置Tesseract
我想安装Tesseract和./configure

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？