我使用附件映射器安装了弹性搜索,然后在同一台机器上安装了tesseract OCR,我的目标是能够通过弹性搜索索引图像。
目前我能够使用弹性而不是图像来解析和索引Microsoft office文件,因为在某些弹性需要知道机器上安装了tesseract并将图像传递给它以提取文本。
tesseract安装很好,因为我可以单独使用它,任何帮助使它与弹性工作?
答案 0 :(得分:0)
已在Apache Tika中启用了tesseract。因此,您可以使用Elasticsearch Ingest Attachment plugin在Tika中使用活动OCR索引图像。
我只使用位于/org/apache/tika/parser/ocr/TesseractOCRConfig.properties
的类路径中的其他属性文件设法在Tika中启用OCR。配置的是语言和tesseract位置:
language=deu+eng
tesseractPath=D:\programs\Tesseract-OCR
基本上,您需要做的就是创建包含属性文件的目录结构,并将其添加到类路径中。
希望这有帮助
康拉德。