Elasticsearch附件插件vs自己的tika实现

时间:2016-11-06 17:53:01

标签: elasticsearch apache-tika

我想使用Tika工具包索引文档文件(pdf,docx ...)和图像(通过tesseract插件)的内容。

我尝试了弹性摄取附件插件(https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html),它的效果非常好但没有OCR内置。 而且我必须发送我的文件的base64,所以高内存使用+弹性索引“数据”(base64)字段是没用的。

我正在考虑直接使用Tika工具包,然后在ElasticSearch中索引内容。

所以我想知道这是不是更好的方式?

2 个答案:

答案 0 :(得分:4)

我们已经创建了一个处理文件的系统(抓取 - > OCR - >索引 - >搜索)。它被称为Ambar。我们构建它的想法是为摄取附件创建一个良好而可靠的替代品。

作为搜索引擎,我们使用ElasticSearch作为上下文提取器:Tika + Tesseract + ImageMagick + PDF的自定义提取器。

我们努力为Tika + ES的实施提供一个简单而强大的替代方案。

查看Github以获取更多详细信息。

答案 1 :(得分:1)

在撰写本文时,几乎没有关于通过elasticsearch-mapper-attachments插件中的Tesseract启用OCR的文档。

一切都指向您在Elasticsearch之外处理OCR的任务,然后单独索引内容。

参考:https://github.com/elastic/elasticsearch-mapper-attachments/issues/10