配置ElasticSearch附件映射器以使用OCR插件

时间:2015-10-23 16:45:58

标签: elasticsearch tesseract elasticsearch-plugin

我使用附件映射器安装了弹性搜索,然后在同一台机器上安装了tesseract OCR,我的目标是能够通过弹性搜索索引图像。

目前我能够使用弹性而不是图像来解析和索引Microsoft office文件,因为在某些弹性需要知道机器上安装了tesseract并将图像传递给它以提取文本。

tesseract安装很好,因为我可以单独使用它,任何帮助使它与弹性工作?

1 个答案:

答案 0 :(得分:0)

已在Apache Tika中启用了tesseract。因此,您可以使用Elasticsearch Ingest Attachment plugin在Tika中使用活动OCR索引图像。

我只使用位于/org/apache/tika/parser/ocr/TesseractOCRConfig.properties的类路径中的其他属性文件设法在Tika中启用OCR。配置的是语言和tesseract位置:

language=deu+eng
tesseractPath=D:\programs\Tesseract-OCR

基本上,您需要做的就是创建包含属性文件的目录结构,并将其添加到类路径中。

希望这有帮助

康拉德。